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仓库 ;IPv6 技术 应 用 基础 专题 ,其 中 包括 IPv6 基础 .IPv6 使 用 协议 ,IPv4 到 IPv6 的 过 渡 技 术 等 。 
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业 学 生 学 习 , 也 适合 系统 管理 员 、 网 络 管理 员 、Linux 运 维 工程 师 、 大 数据 运 维 工程 师 及 网 站 开发 测试 、 
设计 等 从 业 人 员 参 考 。 
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前 
为 什么 要 编著 本 书 


为 什么 编著 《基于 Linux 的 主机 运行 维护 ) 这 本 书 ? 这 要 从 作者 在 吉林 师范 大 学 日 常 
的 教学 与 研究 工作 说 起 。 作 者 在 Linux 操作 系统 的 相关 教学 和 在 信息 安全 、 并 行 计算 等 
方面 的 研究 过 程 中 ,零散 地 积累 一 些 主机 运行 与 维护 方面 的 知识 和 经 验 ,但 一 直 没 成 体 
系 。 同 时 , 随 着 大 数据 \ 云 计算 技术 的 迅速 发 展 及 应 用 ,Linux 作为 开源 系统 ,被 越 来 越 广 
泛 地 应 用 于 社会 生活 的 各 领域 ,但 目前 还 鲜 见 主机 运行 方面 的 书籍 和 著作 。 本 书 的 编著 
就 是 为 了 使 读者 在 基于 Linux 系统 运行 与 维护 过 程 中 解决 相关 问题 ,为 在 校本 科学 生 学 
习 主 机 运行 维护 提供 参考 ,为 数据 科学 与 大 数据 技术 专业 建设 做 贡献 ! 

为 此 ,作者 在 2016 年 编著 出 版 了 《Linux 操作 系统 管理 与 应 用 ) 一 书 并 成 功 应 用 于 计 
算 机 相关 专业 的 本 科教 学 。 随 着 吉林 师范 大 学 数据 科学 与 大 数据 技术 专业 正式 获 批 , 基 
于 Linux 的 主机 运行 与 维护 成 为 大 数据 运 维 工程 师 必 备 技能 。 为 更 好 完成 主机 运行 与 维 
护 教学 工作 和 大 数据 方面 的 研究 工作 ,为 了 使 主机 运行 维护 的 教学 与 就 业 市 场 需求 对 接 ， 
作者 成 功 申报 了 主机 运行 与 维护 校 企 合作 开发 课程 ,目的 是 为 学 习 主 机 运行 与 维护 的 学 
生 提 供 真 实 的 应 用 场景 。 正 是 这 样 一 个 理念 让 作者 不 断 努 力 ,致力 于 将 多 年 Linux 及 运 
维 教学 研究 过 程 中 的 积累 进行 汇总 ,结合 网 络 上 主机 和 运 维 方面 有 效 的 成 功 案例 编著 本 书 ， 
作为 校 企 合作 开发 课程 的 总 结 成 果 之 一 ,为 运 维 从 业 人 员 、 系 统 架 构 师 等 提供 有 益 的 

感谢 合作 企业 的 工程 师 和 课程 教学 团队 的 每 位 成 员 ,是 他 们 的 帮助 ,让 我 们 有 决心 和 
动力 完成 本 书 的 编著 ,并 在 编著 过 程 中 促使 我 们 不 断 地 接受 新 知识 和 探索 新 领域 ,使 我 们 
不 断 进步 和 完善 ,达到 教学 相 长 。 为 了 帮助 学 习 主机 和 运 维 的 人 员 能 够 系统 地 掌握 必 备 的 
理论 和 高 效 的 实践 技能 ,作者 决定 编著 (基于 Linux 的 主机 运行 维护 ) 这 本 书 作 为 主机 运 
行 与 维护 的 基础 ,并 计划 编著 《基于 Linux 的 系统 架构 ) 作 为 主机 运行 与 维护 的 高 级 应 用 。 
虽然 关于 Linux 的 书籍 较 多 ,但 是 很 难 找到 一 本 与 读者 认 知 过 程 相 吻 合 , 与 企业 生产 环境 
相 匹 配 的 主机 运行 与 维护 的 书籍 ,这 是 编写 本 书 的 初衷 。 


本 书 读者 对 象 

本 书 的 读者 对 象 为 计算 机 专业 本 科 生 ,Linux 系统 管理 员 、 网 络 工程 师 、Linux 运 维 
工程 师 、 云 计算 、 大 数据 运 维 工 程 师 及 网 站 开发 ,测试 ,管理 人 员 。 
本 书 体系 结构 


全 书 分 为 7 章 6 个 专题 ,各 部 分 相互 关联 又 可 以 相互 独立 。 
第 1 个 专题 :Linux 文件 系统 管理 ,包括 第 1、2 章 , 主 要 内 容 为 Linux 系统 启动 、 
Linux 文件 系统 理论 与 实践 ,存储 系统 分 类 及 管理 。 


工 基于 Linux 的 主机 运行 维护 


第 2 个 专题 :Linux DNS( 域 名 系统 ) ,包括 第 3 章 , 主 要 内 容 为 Internet 体系 结构 及 
BIND 部 署 . 子 域 授 权 ` 区 域 配 置 . 主 从 DNS 复制 。 

第 3 个 专题 :Linux 信息 系统 安全 ,包括 第 4 章 , 主 要 内 容 为 Linux 信息 与 系统 安全 、 
非 对 称 加 密 技术 及 互信 配置 .PKI 体系 架构 .基于 私有 CA 的 安全 Web。 

第 4 个 专题 :Linux 集群 负载 均衡 ,包括 第 5 章 ,主要 内 容 为 Linux 集群 技术 及 分 类 、 
LVS 负载 均衡 原理 分 类 及 实现 ,数据 库 集 群 及 实现 。 

第 5 个 专题 :Linux 大 数据 系统 ,包括 第 6 章 , 主 要 内 容 为 分 布 式 文件 系统 Hadoop、 
分 布 式 数据 处 理 MapReduce、 分 布 式 结构 化 数据 HBase、Hive 数据 仓库 。 

第 6 个 专题 :IPv6 技术 应 用 基础 ,包括 第 7 章 , 主 要 内 容 为 IPv6 基础 .IPv6 使 用 协 
议 .IPv4 到 IPv6 的 过 渡 技 术 等 。 
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第 1 章 Linux 系统 框架 及 管理 进 阶 


Linux 操作 系统 诞生 于 1991 年 10 月 5 日 ,是 一 套 免费 使 用 和 自由 传播 的 类 UNIX 
操作 系统 , 它 是 基于 POSIX 和 UNIX 的 多 用 户 、 多 任务 ,支持 多 线程 和 多 CPU 的 操作 系 
统 , 能 运行 主要 的 UNIX 工具 软件 ,应 用 程序 和 网 络 协议 。Linux 继承 了 UNIX 以 网 络 为 
核心 的 设计 思想 ,是 一 个 性 能 稳定 的 多 用 户 网 络 操作 系统 。 

Linux 存在 着 许多 不 同 的 版 本 ,但 它们 都 使 用 Linux 内 核 。Linux 可 安装 在 各 种 计算 机 
硬 设备 中 ,比如 手机 、 平 板 计 算 机 、 路 由 器 、 视 频 游戏 控制 面板 .台式 计算 机 、 大 型 机 和 超级 计 
算 机 。 严 格 来 讲 ,Linux 这 个 词 本 身 只 表示 Linux 内 核 , 但 实际 上 人 们 已 经 习惯 了 用 Linux 
来 形容 整个 基于 Linux 内 核 ,并 且 使 用 GNU 工程 各 种 工具 和 数据 库 的 操作 系统 。 

Linux 操作 系统 具有 安全 、 高 效 、 适 合 构 建安 全 的 网 络 应 用 等 特性 ,常用 作 各 种 网 络 
应 用 的 服务 器 操作 系统 。 而 最 吸引 人 的 是 ,Linux 操作 系统 是 开源 的 自由 软件 ,任何 人 都 
可 以 根据 需要 ,自由 地 对 其 进行 复制 .修改 等 操作 。 其 开源 免费 的 特点 ,可 为 企业 节省 购 
买 操作 系统 的 成 本 ,这 也 使 得 Linux 操作 系统 拥有 了 大 量 的 使 用 者 。 


1.1 操作 系统 框架 结构 
Linux 系统 一 般 有 4 个 主要 部 分 , 内核.SHELL、 文 件 系统 和 应 用 程序 。 内 核 、 


SHELL 和 文件 系统 一 起 形成 了 基本 的 操作 系统 结构 ,它们 使 得 用 户 可 以 运行 程序 ,管理 
文件 并 使 用 系统 。 部 分 层次 结构 如 图 1-1 所 示 。 


USERS APPLICATIONS 


FILE SYSTEMS 


PROGRAMS/UTILITIES/TOOLS 


图 1-1 Linux 系统 结构 


2 基于 Linux 的 主机 运行 维护 


1.1.1 Linux 内 核 


内 核 是 操作 系统 的 核心 ,具有 很 多 最 基本 的 功能 , 它 负 责 管理 系统 的 进程 内存、 设备 
驱动 程序 .文件 和 网 络 系统 ,决定 着 系统 的 性 能 和 稳定 性 。 

Linux 内 核 由 如 下 几 部 分 组 成 : 内 存 管 理 、 进 程 管理 .设备 驱动 程序 .文件 系统 和 网 
络 管理 等 。 关 系 如 图 1-2 所 示 。 


虚拟 文件 


系统 管理 


图 1-2 Linux 内 核 组 成 


系统 调用 接口 : SCI 层 提供 了 某 些 机 制 执行 从 用 户 空间 到 内 核 的 函数 调用 。 这 个 接 
口 依赖 于 体系 结构 ,甚至 在 相同 的 处 理 器 家 族 内 也 是 如 此 。SCI 实际 上 是 一 个 非常 有 用 
的 函数 调用 多 路 复 用 和 多 路 分 解 服务 。 在 . /Linux/kernel 中 用 户 可 以 找到 SCI 的 实现 ， 
并 在 . /Linux/arch 中 找到 依赖 于 体系 结构 的 部 分 。 


1. 内 存 管理 


对 任何 一 台 计 算 机 而 言 ,其 内 存 以 及 其 他 资源 都 是 有 限 的 。 为 了 让 有 限 的 物理 内 存 
满足 应 用 程序 对 内 存 的 大 需求 量 ,Linux 采用 了 称 为 “虚拟 内 存 ” 的 内 存 管理 方式 。Linux 
将 内 存 划 分 为 容易 处 理 的 “内 存 页 "(对 于 大 部 分 体系 结构 来 说 都 是 4KB)。Linux 包括 了 
管理 可 用 内 存 的 方式 ,以 及 物理 和 虚拟 映射 所 使 用 的 硬件 机 制 。 

不 过 内 存 管 理 要 管理 的 不 止 4KB 缓冲 区 。Linux 提供 了 对 4KB 缓冲 区 的 抽象 ,例如 
slab 分 配器 。 这 种 内 存 管 理 模式 使 用 4KB 缓冲 区 为 基数 ,然后 从 中 分 配 结构 ,并 跟踪 内 
存 页 使 用 情况 ,比如 哪些 内 存 页 是 满 的 ,哪些 页 面 没有 完全 使 用 ,哪些 页 面 为 空 。 这 样 就 
允许 该 模式 根据 系统 需要 来 动态 调整 内 存 使 用 。 

为 了 支持 多 个 用 户 使 用 内 存 , 有 时 会 出 现 可 用 内 存 被 消耗 光 的 情况 。 出 于 这 个 原因 ， 
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页 面 可 以 移出 内 存 并 放 入 磁盘 中 。 这 个 过 程 称 为 交换 ,因为 页 面 会 从 内 存 交 换 到 硬盘 上 。 
内 存 管理 的 源 代码 可 以 在 . /Linux/mm 中 找到 。 


2. 进程 管理 


进程 实际 是 某 特定 应 用 程序 的 一 个 运行 实体 。 在 Linux 系统 中 ,能 够 同时 运行 多 个 
进程 ,Linux 通过 在 短 的 时 间 间 隔 内 轮流 运行 这 些 进程 而 实现 “多 任务 ”。 这 一 短 的 时 间 
间隔 称 为 “时 间 片 ”, 让 进程 轮流 运行 的 方法 称 为 “进程 调度 ”, 完 成 调度 的 程序 称 为 调度 
程序 。 

进程 调度 控制 进程 对 CPU 的 访问 。 当 需要 选择 下 一 个 进程 运行 时 ,由 调度 程序 选 
择 最 值得 运行 的 进程 。 可 运行 进程 实际 上 是 仅 等 待 CPU 资源 的 进程 ,如 果 某 个 进程 在 
等 待 其 他 资源 , 则 该 进程 是 不 可 运行 进程 。Linux 使 用 了 比较 简单 的 基于 优先 级 的 进程 
调度 算法 选择 新 的 进程 。 

通过 多 任务 机 制 , 每 个 进程 可 认为 只 有 自己 独占 计算 机 ,从 而 简化 程序 的 编写 。 每 个 
进程 有 自己 单独 的 地 址 空间 ,并 且 只 能 由 这 一 进程 访问 ,这 样 ,操作 系统 避免 了 进程 之 间 
的 互相 干扰 以 及 “ 坏 ” 程 序 对 系统 可 能 造成 的 危害 。 为 了 完成 某 特定 任务 ,有 时 需要 综合 
两 个 程序 的 功能 ,例如 一 个 程序 输出 文本 ,而 另 一 个 程序 对 文本 进行 排序 。 为 此 ,操作 系 
统 还 提供 进程 间 的 通信 机 制 来 帮助 完成 这 样 的 任务 。Linux 中 常见 的 进程 间 通 信 机 制 有 
信号 ,管道 .共享 内 存 、 信 号 量 和 套 接 字 等 。 

内 核 通过 SCI 提供 了 一 个 应 用 程序 编程 接口 (APIT) 来 创建 一 个 新 进程 (fork .exec 或 
Portable Operating System Interface [POSIX ] 函 数 ) ,停止 进程 (kill ,exit) ,并 在 它们 之 间 
进行 通信 和 同步 (signal 或 者 POS 区 机 制 ) 。 


3. 文件 系统 


与 DOS 等 操作 系统 不 同 ,Linux 操作 系统 中 单独 的 文件 系统 并 不 是 由 驱动 器 名 称 
(如 A: 或 C: 等 ) 来 标识 的 。 相 反 , 和 UNIX 操作 系统 一 样 ,Linux 操作 系统 将 独立 的 文 
件 系统 组 合成 了 一 个 层次 化 的 树 状 结构 ,并 且 由 一 个 单独 的 实体 代表 这 一 文件 系统 。 
Linux 将 新 的 文件 系统 通过 一 个 称 为 “ 挂 装 ”或 “ 挂 上 ”的 操作 将 其 挂 装 到 某 个 目录 上 ,从 
而 让 不 同 的 文件 系统 结合 成 为 一 个 整体 。Linux 操作 系统 的 一 个 重要 特点 是 它 支 持 许多 
不 同类 型 的 文件 系统 。Linux 中 最 普遍 使 用 的 文件 系统 是 EXT2, 它 也 是 Linux 土生 土 
长 的 文件 系统 。 但 Linux 也 能 够 支持 FAT、VFAT、FAT32、MINIX 等 不 同类 型 的 文件 
系统 ,从 而 可 以 方便 地 和 其 他 操作 系统 交换 数据 。 由 于 Linux 支持 许多 不 同 的 文件 系统 ， 
并 且 将 它们 组 织 成 了 一 个 统一 的 虚拟 文件 系统 。 

虚拟 文件 系统 (Virtual File System,VFS) ,结构 如 图 1-3 所 示 。 它 隐藏 了 各 种 硬件 
的 具体 细节 ,把 文件 系统 操作 和 不 同文 件 系统 的 具体 实现 细节 分 离开 来 ,为 所 有 的 设备 提 
供 了 统一 的 接口 ,VFS 提供 了 多 达 数 十 种 不 同 的 文件 系统 。 虚 拟 文件 系统 可 以 分 为 逻辑 
文件 系统 和 设备 驱动 程序 。 逻 辑 文件 系统 指 Linux 所 支持 的 文件 系统 ,如 EXT2、FAT 
等 ,设备 驱动 程序 指 为 每 一 种 硬件 控制 器 所 编写 的 设备 驱动 程序 模块 。 

虚拟 文件 系统 (VFS) 是 Linux 内 核 中 非常 有 用 的 一 个 方面 ,因为 它 为 文件 系统 提供 
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了 一 个 通用 的 接口 抽象 。VFS 在 SCI 和 内 核 所 支持 的 文件 系统 之 间 提 供 了 一 个 交换 层 。 
即 VFS 在 用 户 和 文件 系统 之 间 提 供 了 一 个 交换 层 。 


Virtual File System (VFS) 


cas 


Physical Devices 


图 1-3 虚拟 文件 系统 


在 VFS 上面 ,是 对 诸如 open、close、read 和 write 之 类 的 函数 的 一 个 通用 API 抽象 。 
在 VFS 下 面 是 文件 系统 抽象 , 它 定义 了 上 层 函 数 的 实现 方式 。 它 们 是 给 定 文件 系统 ( 超 
过 50 个) 的 插件 。 文 件 系统 的 源 代码 可 以 在 . /Linux/fs 中 找到 。 

文件 系统 层 之 下 是 缓冲 区 缓存 , 它 为 文件 系统 层 提 供 了 一 个 通用 函数 集 (与 具体 文件 
系统 无 关 ) 。 这 个 缓存 层 通过 将 数据 保留 一 段 时 间 ( 或 者 随即 预先 读 取 数 据 以 便 在 需要 时 
使 用 ) 优 化 了 对 物理 设备 的 访问 。 缓 冲 区 缓存 之 下 是 设备 驱动 程序 , 它 实 现 了 特定 物理 设 
备 的 接口 。 

因此 ,用 户 和 进程 不 需要 知道 文件 所 在 的 文件 系统 类 型 ,而 只 需要 像 使 用 EXT2 文 
件 系统 中 的 文件 一 样 使 用 它们 。 


4. 设备 驱动 程序 


设备 驱动 程序 是 Linux 内 核 的 主要 部 分 。 和 操作 系统 的 其 他 部 分 类 似 ,设备 驱动 程 
序 运行 在 高 特权 级 的 处 理 器 环境 中 ,从 而 可 以 直接 对 硬件 进行 操作 ,但 正 因为 如 此 ,任何 
一 个 设备 驱动 程序 的 错误 都 可 能 导致 操作 系统 的 崩溃 。 设 备 驱动 程序 实际 控制 操作 系统 
和 硬件 设备 之 间 的 交互 。 设 备 驱 动 程序 提供 一 组 操作 系统 可 理解 的 抽象 接口 完成 和 操作 
系统 之 间 的 交互 ,而 与 硬件 相关 的 具体 操作 细节 由 设备 驱动 程序 完成 。 一 般 而 言 ,设备 驱 
动 程序 和 设备 的 控制 芯片 有 关 , 例 如 ,如 果 计 算 机 硬盘 是 SCSI 硬盘 , 则 需要 使 用 SCSI 驱 
动 程序 ,而 不 是 IDE 驱动 程序 。 


5. 网 络 接口 (NET) 


提供 了 对 各 种 网 络 标准 的 存 取 和 各 种 网 络 硬 件 的 支持 。 网 络 接口 可 分 为 网 络 协 议和 
网 络 驱 动 程序 。 网 络 协议 部 分 负责 实现 每 一 种 可 能 的 网 络 传输 协议 。TCP/IP 协议 是 
Internet 的 标准 协议 ,同时 也 是 事实 上 的 工业 标准 。Linux 的 网 络 实现 支持 BSD 套 接 字 ， 
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支持 全 部 的 TCP/IP 协议 。Linux 内 核 的 网 络 部 分 由 BSD 套 接 字 、 网 络 协 议 层 和 网 络 设 
备 驱动 程序 组 成 。 

网 络 设备 驱动 程序 负责 与 硬件 设备 通信 ,每 一 种 可 能 的 硬件 设备 都 有 相应 的 设备 驱 
动 程序 。 


1.1.2 Linux SHELL 


SHELL 是 系统 的 用 户 界面 ,提供 了 用 户 与 内 核 进行 交互 操作 的 一 种 接口 。 它 接收 
用 户 输入 的 命令 并 把 它 送 入 内 核 去 执行 ,是 一 个 命令 解释 器 。 另 外 ,SHELL 编程 语言 具 
有 普通 编程 语言 的 很 多 特点 ,用 这 种 编程 语言 编写 的 SHELL 程序 与 其 他 应 用 程序 具有 
同样 的 效果 。 

目前 主要 有 下 列 版 本 的 SHELL。 

(1) Bourne SHELL: 由 贝尔 实验 室 开发 。 

(2) BASH: 是 GNU 的 Bourne Again SHELL,GNU 操作 系统 上 默认 的 SHELL, 大 
部 分 Linux 的 发 行 套件 使 用 的 都 是 这 种 SHELL。 

(3) Korn SHELL: 是 对 Bourne SHELL 的 发 展 ,在 大 部 分 内 容 上 与 Bourne SHELL 

(4) C SHELL: 是 Sun 公司 SHELL 的 BSD 版 本 。 


1.1.3 Linux 文件 系统 


文件 系统 是 文件 存放 在 磁盘 等 存储 设备 上 的 组 织 方法 。Linux 系统 能 支持 多 种 目前 
流行 的 文件 系统 ,如 EXT2、.EXT3、FAT、FAT32、VFAT 和 ISO 9660。 


1. 文件 类 型 


Linux 的 主要 文件 类 型 有 如 下 几 种 。 

(1) 普通 文件 : C 语言 源 代 码 .SHELL 脚本 、 二 进 制 的 可 执行 文件 等 。 分 为 纯 文本 
和 二 进 制 。 

(2) 目录 文件 : 目录 ,存储 文件 的 唯一 地 方 。 

(3) 链接 文件 : 指向 同一 个 文件 或 目录 的 文件 。 

(4) 设备 文件 : 与 系统 外 设 相关 的 ,通常 在 /dev 下 面 。 分 为 块 设备 和 字符 设备 。 

(5) 管道 (FIFO) 文 件 : 提供 进程 间 通 信 的 一 种 方式 。 

(6) 套 接 字 (socket) 文 件 : 该 文件 类 型 与 网 络 通信 有 关 。 


2. Linux 目录 


文件 结构 是 文件 存放 在 磁盘 等 存储 设备 上 的 组 织 方法 。 主 要 体现 在 对 文件 和 目录 的 
组 织 上 。 目 录 提 供 了 管理 文件 的 一 个 方便 而 有 效 的 途径 。 

Linux 使 用 标准 的 目录 结构 ,在 安装 的 时 候 ,安装 程序 就 已 经 为 用 户 创建 了 文件 系统 
和 完整 而 固定 的 目录 组 成 形式 ,并 指定 了 每 个 目录 的 作用 和 其 中 的 文件 类 型 。 

完整 的 目录 树 可 划分 为 小 的 部 分 ,这 些小 部 分 又 可 以 单独 存放 在 自己 的 磁盘 或 分 


[Bl 
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变化 的 部 分 可 单独 存放 在 不 同 的 分 区 中 ,从 而 方便 备份 
示 。 这 样 的 布 
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上 。 这样, 相对 稳定 的 部 分 和 经 
或 系统 管理 。 目 录 树 的 主要 部 分 有 root、/usr、/var、/home 等 ,如 图 1-4 所 示 
局 可 方便 在 Linux 计算 机 之 间 共 享 文件 系统 的 某 些 部 分 。 
2 / ee 
[es - | 
\/ home \bin pe usSr poot lib dev sto/ Var 
/~-- = i A a 
》 / ~、、 ps Me 
Vk ns 
SE \ 


1-4 Linux 的 目录 结构 
最 上 层 是 根 目录 ,其 他 的 所 有 目录 都 是 从 根 目 录 出 发 而 


Linux 采用 的 是 树 状 结构 。 
生成 的 。 

微软 的 DOS 和 Windows 也 是 采用 树 状 结构 ,但 是 在 DOS 和 Windows 中 这 样 的 树 

状 结构 的 根 是 磁盘 分 区 的 盘 符 , 有 几 个 分 区 就 有 几 个 树 状 结构 ,它们 之 间 的 关系 是 并 列 

一个。 从 结构 


的 。 最 顶部 的 是 不 同 的 磁盘 (分 区 ) ,如 CDEN 等 
但 是 在 Linux 中 ,无 论 操 作 系统 管理 几 个 磁盘 分 区 ,这 样 的 目录 树 
讲 ,各 个 磁盘 分 区 上 的 树 状 目录 不 一 定 是 并 列 的 。 
3. Linux 磁盘 分 区 
1) 主 分 区 ,扩展 分 区 和 逻辑 分 区 
inux 分 区 不 同 于 Windows, 硬 盘 和 硬盘 分 区 在 Linux 都 表示 为 设备 。 硬 盘 分 区 共 


Li 人 
有 3 种 : 主 分 区 .扩展 分 区 和 逻辑 分 区 
硬盘 的 分 区 主要 分 为 主 分 区 (Primary Partion) 和 扩展 分 区 (Extension Partion ) 两 


种 , 主 分 区 和 扩展 分 区 的 数目 之 和 不 能 大 于 4 个 

J@ 主 分 区 (Primary Partion) : 可 以 马上 被 使 用 但 不 能 再 分 区 

@ 扩展 分 区 (Extension Partion) : 必须 再 进行 分 区 后 才能 使 用 ,也 就 是 说 它 必须 还 

要 进行 二 次 分 区 。 

@ 逻辑 分 区 (Logical Partion) : 由 扩展 分 区 建立 起 来 的 分 区 。 逻 辑 分 区 没有 数量 上 
限制 。 

扩展 分 区 只 不 过 是 逻辑 分 区 的 “容器 ,实际 上 只 有 主 分 区 和 逮 辑 分 区 进行 数据 存储 

2) Linux 下 硬盘 分 区 的 标识 

硬盘 分 区 的 标识 一 般 使 用 /dev/hd[a-z]X 或 者 /dev/sd[a-z]X 来 标识 ,其 中 [La-z] 代 表 
硬盘 号 ,X 代表 硬盘 内 的 分 区 号 
@D 整 块 硬盘 分 区 的 块 号 标识 : Linux 下 用 hda、hdb、sda、sdb 等 来 标识 不 同 的 硬盘 ; 
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其 中 ,IDE 接口 硬盘 表示 为 /dev/hdal、/dev/hdb …;SCSI 接口 的 硬盘 、SATA 接口 的 硬 
盘 表 示 为 /dev/sda /dev/sdb… 

@ 硬盘 内 的 分 区 : 如 果 X 的 值 是 1 到 4, 表 示 硬 盘 的 主 分 区 (包含 扩展 分 区 ) ;逻辑 分 
区 是 从 5 开始 的 ,比如 /dev/hda5 肯定 是 逻辑 分 区 了 。 

例如 ,用 hdal、hda2、hda5、hda6 来 标识 不 同 的 分 区 。 其 中 ,字母 a 代表 第 一 块 硬盘 ， 
b 代表 第 二 块 硬盘 ,依次 类 推 。 而 数字 1 代表 一 块 硬盘 的 第 一 个 分 区 ,2 代表 第 二 个 分 区 ， 
依次 类 推 。1 到 4 对 应 的 是 主 分 区 或 扩展 分 区 。 从 5 开始 ,对 应 的 都 是 硬盘 的 逻辑 分 区 。 
一 块 硬盘 即使 只 有 一 个 主 分 区 ,逻辑 分 区 也 是 从 5 开始 编号 的 ,这 点 应 特别 注意 。 

Linux 下 磁盘 分 区 和 目录 的 关系 如 下 : 

， 任何 一 个 分 区 都 必须 挂 载 到 某 个 目录 上 。 

a 目录 是 逻辑 上 的 区 分 。 分 区 是 物理 上 的 区 分 。 

"磁盘 Linux 分 区 都 必须 挂 载 到 目录 树 中 的 某 个 具体 的 目录 上 才能 进行 读 写 操作 。 

， 根 目录 是 所 有 Linux 的 文件 和 目录 所 在 的 地 方 ,需要 挂 载 上 一 个 磁盘 分 区 。 


4. Linux 主要 目录 的 功用 


/bin 二 进 制 可 执行 命令 。 
/dev 设备 特殊 文件 。 
/etc 系统 管理 和 配置 文件 。 
/etc/rc. d 启动 的 配置 文件 和 脚本 。 
/home 用 户主 目录 的 基点 ,比如 用 户 user 的 主 目录 就 是 /home/user, 可 以 用 一 user 
表示 。 
/lib 标准 程序 设计 库 , 又 叫 动态 链接 共享 库 , 作 用 类 似 Windows 里 的 . dll 文件 。 
/sbin 系统 管理 命令 ,这 里 存放 的 是 系统 管理 员 使 用 的 管理 程序 。 
/tmp 公用 的 临时 文件 存储 点 。 
/root 系统 管理 员 的 主 目录 。 
/mnt 系统 提供 这 个 目录 是 让 用 户 临 时 挂 载 其 他 的 文件 系统 。 
/lost 十 found 这 个 目录 平时 是 空 的 ,系统 非 正常 关机 而 留 下 "无 家 可 归 ” 的 文件 就 在 
这 里 。 
/proc 虚拟 的 目录 ,是 系统 内 存 的 映射 。 可 直接 访问 这 个 目录 来 获取 系统 信息 。 
/var 某 些 大 文件 的 溢出 区 ,比如 说 各 种 服务 的 日 志文 件 。 
/usr 最 庞大 的 目录 ,要 用 到 的 应 用 程序 和 文件 几乎 都 在 这 个 目录 。 其 中 包含 ， 
/usr/X11R6 存放 X Window 的 目录 。 
/usr/bin 众多 的 应 用 程序 。 
/usr/sbin 超级 用 户 的 一 些 管理 程序 。 
/usr/doc Linux 文档 。 
/usr/include Linux 下 开发 和 编译 应 用 程序 所 需要 的 头 文件 。 
/usr/lib 常用 的 动态 链接 库 和 软件 包 的 配置 文件 。 
/usr/man 帮助 文档 。 
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/usr/src 源 代码 ,Linux 内 核 的 源 代码 就 放 在 /usr/src/Linux 里 。 
/usr/local/bin 本 地 增加 的 命令 。 
/usr/local/lib 本 地 增加 的 库 。 


1.1.4 Linux 应 用 程序 


标准 的 Linux 系统 一 般 都 有 一 套 称 为 应 用 程序 的 程序 集 , 它 包括 文本 编辑 器 、 编 程 语 
言 .X Window、 办 公 套 件 、Internet 工具 和 数据 库 等 。 


1.2 计算 机 存储 体系 


1. 存储 器 概述 


存储 器 是 计算 机 系统 中 的 记忆 设备 ,用 来 存放 程序 和 数据 。 构 成 存储 器 的 存储 介质 ， 
目前 主要 采用 半导体 器 件 和 磁性 材料 。 存 储 器 中 最 小 的 存储 单位 就 是 一 个 双 稳 态 半导体 
电路 或 一 个 CMOS 品 体 管 或 磁性 材料 的 存储 元 , 它 可 存储 一 个 二 进 制 代码 。 由 若干 个 存 
储 元 组 成 一 个 存储 单元 ,然后 再 由 许多 存储 单元 组 成 一 个 存储 器 。 


2. 存储 器 分 类 


根据 存储 材料 的 性 能 及 使 用 方法 不 同 ,存储 器 有 各 种 不 同 的 分 类 方法 。 

1) 按 存储 介质 分 

半导体 存储 器 : 用 半导体 器 件 组 成 的 存储 器 。 

磁 表 面 存储 器 : 用 磁性 材料 做 成 的 存储 器 。 

2) 按 存储 方式 分 

随机 存储 器 : 任何 存储 单元 的 内 容 都 能 被 随机 存 取 , 且 存 取 时 间 和 存储 单元 的 物理 
位 置 无 关 。 

顺序 存储 器 : 只 能 按 某 种 顺序 来 存 取 , 存 取 时 间 和 存储 单元 的 物理 位 置 有 关 。 

3) 按 存储 器 的 读 写 功能 分 

只 读 存 储 器 (ROM) : 存储 的 内 容 是 固定 不 变 的 ,只 能 读 出 而 不 能 写 入 的 半导体 存 
储 器 。 

随机 读 写 存储 器 (RAM) : 既 能 读 出 又 能 写 入 的 半导体 存储 器 。 

4) 按 信息 的 可 保存 性 分 

非 永久 记忆 的 存储 器 : 断 电 后 信息 即 消失 的 存储 器 。 

永久 记忆 性 存储 器 : 断 电 后 仍 能 保存 信息 的 存储 器 。 

5) 按 在 计算 机 系统 中 的 作用 分 

根据 存储 器 在 计算 机 系统 中 所 起 的 作用 ,可 分 为 主 存储 器 、 辅 助 存储 器 .高速 缓冲 存 
储 器 、 控 制 存 储 器 等 。 


3. 存储 器 的 分 级 结构 
为 了 解决 对 存储 器 要 求 容 量 大 、 速 度 快 、 成 本 低 三 者 之 间 的 矛盾 ,目前 通常 采用 多 级 
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存储 器 体系 结构 ,即使 用 高 速 缓 冲 存储 器 、 主 存储 器 和 外 存储 器 ,如 表 1-1 和 图 1-5 所 示 。 
表 1-1 计算 机 存储 层次 及 特点 


名 称 简称 用 途 特 ”点 
高 速 缓冲 存储 器 | Cache | 高 速 存 取 指 令 和 数据 存 取 速度 快 ,但 存储 容量 小 
主 存储 器 主 存 | 存放 计算 机 运行 期 间 的 大 量程 序 和 数据 | 存 取 速度 较 快 ,存储 容量 不 大 
外 存储 器 外 存 | 存放 系统 程序 和 大 型 数据 文件 及 数据 库 | 存储 容量 大 ,位 成 本 低 
CPU 内 部 寄存 器 
Cache 高 速 缓冲 存储 器 
主 存储 器 主 存 
磁盘 Cache 
外 存储 器 磁盘 
磁带 光盘 


图 1-5 存储 器 系统 的 分 级 结构 


1.3 Linux 系统 启动 流程 


Linux 启动 过 程 的 基本 流程 如 图 1-6 所 示 。 


POST (CMOS) 加 电 自 检 
Uy 加 载 kernel, 
加 载 MBR: 启 动 bootloader| | 初始 化 _ | 
第 0 个 磁头 446 字 节 “| “| initd ee [站 ”| 读 取 并 运行 /sbin/init 根据 
MI 尖 厅 工 BD inittah 守 全 
后 64 字 节 rs 根 文件 条 统 (emiah 完 碗 系统 词组 
0 载 外 围 驱 志 
二 必须 自动 的 过 各 I 下 上 | 设 定 默 认 运行 级 别 
CO 表示 能 启动 的 过 程 性 件 系 儿 |、 initdefault [1 
[了 了 表示 扩展 说 明 属 总 台球 并 | 执行 系统 初始 化 工作 sd | 
initrd 是 一 个 基于 内 存 的 根 文件 系统 | etenredresysint | 。| 所 有 以 s 开 头 的 | 
它 一 个 小 3. 执行 指定 级 别 脚本 1 服务 ，stop 所 有 
福 作 系统 | 人 不 和 和， a /etche-d/reN.d/ ! Le 的 服务 | 
它 的 某 个 目录 存放 了 内 核 需要 激活 的 1 持 载 /ete/fstab | 人 执行 Qineetty 启动 6 个 
哲 外 的 特殊 丰 储 设备 驱动 如 RAID、LVM tn 


四 1-6 ”Linux 启动 流程 


第 一 步 ,BIOS 自 检 。 

启动 Linux 操作 系统 时 ,系统 首先 加 载 BIOS 信息 ,BIOS 中 包含 了 CPU 的 相关 信 
息 .设备 启动 顺序 信息 内 存 检验 内存 信息 .时 钟 信息 、 键 盘 检查 等 ,然后 在 UMB(Upper 
Memory Block) 中 扫描 ,看 是 否 有 合法 的 ROM 存在 (比如 SCSI 卡 上 的 ROM) ,如 果 存 
在 ,就 到 ROM 中 去 执行 这 些 固化 的 指令 ,执行 完成 后 再 继续 运行 ,最 后 BIOS 自 检 完毕 。 
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第 二 步 , 读 取 MBR 。 

BIOS 自 检 完 毕 后 , 就 会 读 取 硬盘 上 第 0 磁道 第 一 个 扇 区 , 被 称 为 MBR 
(MasterBootRecord) , 即 主 引导 记录 , 它 的 大 小 为 512 字 节 ,里 面 存储 着 预 启动 信息 、 分 区 
表 信 息 。 

系统 找到 BIOS 所 指定 硬盘 的 MBR 后 ,将 BootLoader 复制 到 0x7c00 地 址 所 在 的 物 
理 内 存 中 。 

第 三 步 ,BootLoader。 

BootLoader 是 在 操作 系统 内 核 运 行 之 前 运行 的 一 段 小 程序 。 通 过 这 段 小 程序 可 以 
初始 化 硬 设备 ,建立 内 存 空间 的 映像 图 ,从 而 将 系统 的 软 硬 件 环境 带 到 一 个 合适 的 状态 ， 
以 便 为 最 终 调用 操作 系统 内 核 做 好 准备 。 

在 安装 Linux 时 ,安装 软件 会 提示 用 户 选 择 今后 所 用 的 引导 程序 装载 器 ,BootLoader 
有 若干 种 ,其 中 GRUB、LILO 和 SPFDISK 是 常见 的 Loader, 早 期 的 Linux 多 用 LILO， 
现在 多 用 GRUB, 如 果 GRUB 安装 在 主 引导 区 的 记录 中 ,那么 Pre-Boot 区 中 的 指令 就 是 
GRUB 启动 指令 ,完成 用 户 信息 的 显示 、 操 作 系统 的 选择 、 命 令 行 参 数 的 传递 ,然后 加 载 
对 应 操作 系统 的 内 核 映 像 文件 ,最 后 将 控制 权 交 给 加 载 人 内 存 的 操作 系统 内 核 映 像 。 

第 四 步 , 内 核 运 行 。 

根据 GRUB 设 定 的 内 核 映 像 所 在 路 径 ,系统 读 取 内 存 映像 ,并 进行 解压 缩 操作 。 此 
时 ,屏幕 一 般 会 输出 “UncompressingLinux” 的 提示 。 当 解压 缩 内 核 完 成 后 ,屏幕 输出 
“OK ,bootingthekernel”。 

系统 将 解压 后 的 内 核 放置 在 内 存 之 中 ,并 调用 start_kernel() 函数 来 启动 一 系列 的 初 
始 化 函数 并 初始 化 各 种 设备 ,完成 Linux 核心 环境 的 建立 。 至 此 ,Linux 内 核 已 经 建立 起 
来 了 ,基于 Linux 的 程序 可 以 正常 运行 了 。 

第 五 步 ,用 户 层 init 依据 inittab 文件 来 设 定 运 行 等 级 。 

内 核 被 加 载 后 ,第 一 个 运行 的 程序 便 是 /sbin/init, 它 的 PID 是 1, 是 所 有 进程 的 父 进 
程 。init 进程 运行 时 将 用 到 系统 引导 配置 文件 /etc/inittab 中 的 信息 ,并 依据 该 信息 完成 
操作 系统 初始 化 工作 ,其 中 包括 登录 时 要 启动 的 getty 进程 .NFS 守护 进程 .FTP 守护 进 
程 ,以 及 任何 需要 在 boot 时 启动 的 服务 。 

/etc/inittab 文档 最 主要 的 作用 是 设 定 Linux 的 运行 等 级 ,其 设 定形 式 是 “: id:5: 
initdefault:”, 这 就 表明 Linux 需要 运行 在 等 级 5 上 。 

Linux 系统 有 7 个 运行 级 别 (runlevel) 。 

QO 运行 级 别 0: 系统 停机 状态 ,系统 默认 运行 级 别 不 能 设 为 0, 否则 不 能 正常 启动 。 

@ 运行 级 别 1: 单 用 户 工作 状态 ,root 权限 ,用 于 系统 维护 ,禁止 远程 登录 。 

@ 运行 级 别 2: 多 用 户 状态 (没有 NFS)。 

@ 运行 级 别 3: 完全 的 多 用 户 状态 (有 NFS) ,登录 后 进入 控制 台 命令 行 模式 。 

@ 运行 级 别 4: 系统 未 使 用 ,保留 。 

@ 运行 级 别 5: X11 控制 台 ,登录 后 进入 图 形 GUI 模式。 

@ 运行 级 别 6: 系统 正常 关闭 并 重启 ,默认 运行 级 别 不 能 设 为 6, 和 否则 不 能 正常 启动 。 

第 六 步 ,init 进程 执行 rc. sysinit 。 
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设 定 运行 等 级 后 ,Linux 系统 执行 的 第 一 个 文档 就 是 /etc/rc. d/rc. sysinit 脚本 程序 ， 
它 的 工作 包括 设 定 PATH 、 设 定 网 络 配置 (C/etc/sysconfig/network) .启动 swap 分 区 、 设 
定 /proc 等 。 

第 七 步 ,启动 内 核 模块 。 

具体 是 依据 /etc/modules. conf 文件 或 /etc/modules. d 目录 下 的 文件 来 装载 内 核 
模块 。 

第 八 步 , 执 行 不 同 运 行 级 别 的 脚本 程序 。 

根据 运行 级 别 的 不 同 ,系统 会 运行 rc0. d 到 rc6. d 中 的 相应 的 脚本 程序 ,来 完成 相应 
的 初始 化 工作 和 启动 相应 的 服务 。 

第 九 步 ,执行 /etc/re. d/rc. local。 

打开 文件 显示 内 容 如 下 : 

# Thisscriptwillbeexecuted * after * alltheotherinitscripts. 

# Youcanputyourowninitializationstuffinhereifyoudon''t 

#wanttodothefullSysVstyleinitstuff. 

rc. local 是 在 一 切 初 始 化 工作 后 ,Linux 留 给 用 户 进 行 个 性 化 的 地 方 。 使 用 者 可 以 将 
想 设 置 和 启动 的 内 容 放 到 该 档 中 。 

第 十 步 ,执行 /bin/login 程序 ,进入 登录 状态 。 

此 时 ,系统 已 经 进入 到 了 等 待 用 户 输入 username 和 password 的 状态 ,用 户 可 以 使 用 
自己 的 账号 登录 系统 。 


1.4 计算 机 存储 体系 


对 于 计算 机 来 说 ,所 谓 的 数据 就 是 0 和 1 的 序列 。 这 样 的 一 个 序列 可 以 存储 在 内 存 
中 ,但 内 存 中 的 数据 会 随 着 关机 而 消失 。 为 了 将 数据 长 久保 存 , 我 们 把 数据 存储 在 光盘 或 
者 硬盘 中 。 根 据 我 们 的 需要 ,我 们 通常 会 将 数据 分 开 保 存 到 文件 这 样 一 个 个 的 小 单位 中 
(所 谓 的 小 ,是 相对 于 所 有 的 数据 而 言 )。 但 如 果 数 据 只 能 组 织 为 文件 ,而 不 能 分 类 , 档 还 
是 会 杂乱 无 章 。 每 次 我 们 搜索 某 一 个 档 , 就 要 一 个 档 又 一 个 档 地 检查 , 太 过 麻烦 。 文 件 系 
统 (file system) 就 是 文件 在 逻辑 上 的 组 织 形式 , 它 以 一 种 更 加 清晰 的 方式 来 存放 各 个 档 。 
存储 管理 子 系统 是 操作 系统 中 最 重要 的 组 成 部 分 之 一 , 它 的 目的 是 方便 用 户 使 用 和 提高 
内 存 利用 率 。 本 部 分 带 你 深入 了 解 内 存 管理 。 

登录 系统 后 ,在 当前 命令 窗口 下 输入 命令 : ls /。 

结果 如 图 1-7 所 示 。 


[root@localhost ~]# 1s / 


图 1-7 系统 目录 结构 


树 状 目录 结构 如 图 1-8 所 示 。 
以 下 是 对 这 些 目 录 的 解释 。 
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/root /bin /boot /dev /ete /home /var /lib /usr /media … 
| 


/rooUDesktop /rootMaildir ~ /usr/bin /usr/lib 
图 1-8 系统 树 状 目录 结构 


/bin: bin 是 Binary 的 缩写 ,这 个 目录 存放 着 最 经 常 使 用 的 命令 。 

/boot: 这 里 存放 的 是 启动 Linux 时 使 用 的 一 些 核心 文件 ,包括 一 些 连接 文件 以 及 镜 
像 文 件 。 

/dev: dev 是 Device( 设 备 ) 的 缩写 ,该 目录 下 存放 的 是 Linux 的 外 部 设备 ,在 Linux 
中 访问 设备 的 方式 和 访问 文件 的 方式 是 相同 的 。 

/etc: 这 个 目录 用 来 存放 所 有 的 系统 管理 所 需要 的 配置 文件 和 子 目 录 。 

/home: 用 户 的 主 目录 ,在 Linux 中 ,每 个 用 户 都 有 一 个 自己 的 目录 ,一 般 该 目录 名 
是 以 用 户 的 账号 命名 的 。 

/lib: 这 个 目录 里 存放 着 系统 最 基本 的 动态 链接 共享 库 ,其 作用 类 似 于 Windows 中 
的 DLL 文件 。 几 乎 所 有 的 应 用 程序 都 需要 用 到 这 些 共 享 库 。 

/lost 十 found: 这 个 目录 一 般 情况 下 是 空 的 , 当 系 统 非法 关机 后 ,这 里 就 存放 了 一 些 
文件 。 

/media: Linux 系统 会 自动 识别 一 些 设备 ,例如 U 盘 、. 光 陈 等 , 当 识 别 后 ,Linux 会 把 
识别 的 设备 挂 载 到 这 个 目录 下 。 

/mnt: 系统 提供 该 目录 是 为 了 让 用 户 临时 挂 载 别 的 文件 系统 的 ,可 以 将 光驱 挂 载 在 
/mnt/ 上 ,然后 进入 该 目录 就 可 以 查看 光驱 里 的 内 容 了 。 

/opt: 这 是 给 主机 额外 安装 软件 所 摆 放 的 目录 。 比 如 用 户 安装 一 个 Oracle 数据 库 就 
可 以 放 到 这 个 目录 下 。 默 认 是 空 的 。 

/proc: 这 个 目录 是 一 个 虚拟 的 目录 , 它 是 系统 内 存 的 映射 ,用 户 可 以 通过 直接 访问 
这 个 目录 来 获取 系统 信息 。 

这 个 目录 的 内 容 不 在 硬盘 上 而 是 在 内 存 中 ,也 可 以 直接 修改 里 面 的 某 些 文件 ,比如 可 
以 通过 下 面 的 命令 来 屏蔽 主机 的 ping 命令 ,使 别人 无 法 ping 你 的 机 器 : 


echo 1 > /proc/sys/net/ipv4/icmp echo ignore all 


/root: 该 目录 为 系统 管理 员 ,也 称 作 超 级 权限 者 的 用 户主 目录 。 

/sbin: s 就 是 Super User 的 意思 ,这 里 存放 的 是 系统 管理 员 使 用 的 系统 管理 程序 。 

/SELinux: 这 个 目录 是 Redhat/CentOS 所 特有 的 目录 ,SELinux 是 一 个 安全 机 制 ,类 似 
于 Windows 的 防火 墙 ,但 是 这 套 机 制 比较 复杂 ,这 个 目录 就 是 存放 SELinux 相关 的 文件 的 。 

/srv: 该 目录 存放 一 些 服务 启动 之 后 需要 提取 的 数据 。 

/sys: 这 是 Linux 2.6 内 核 的 一 个 很 大 的 变化 。 该 目录 下 安装 了 2.6 内 核 中 新 出 现 
的 一 个 文件 系统 sysfs。 
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sysfs 文件 系统 集成 了 3 种 文件 系统 的 信息 : 针对 进程 信息 的 proc 文件 系统 、 针 对 设 
备 的 devfs 文件 系统 以 及 针对 伪 终 端的 devpts 文件 系统 。 

该 文件 系统 是 内 核 设备 树 的 一 个 直观 反映 。 

当 一 个 内 核对 象 被 创建 的 时 候 , 对 应 的 文件 和 目录 也 在 内 核对 象 子 系统 中 被 创建 。 

/tmp: 这 个 目录 是 用 来 存放 一 些 临时 文件 的 。 

/usr: 这 是 一 个 非常 重要 的 目录 ,用 户 的 很 多 应 用 程序 和 文件 都 放 在 这 个 目录 下 ,类 
似 于 Windows 下 的 program files 目录 。 

/usr/bin: 系统 用 户 使 用 的 应 用 程序 。 

/usr/sbin: 超级 用 户 使 用 的 比较 高 级 的 管理 程序 和 系统 守护 程序 。 

/usr/src: 内 核 源 代码 默认 的 放置 目录 。 

/var: 这 个 目录 中 存放 着 在 不 断 扩充 的 东西 ,经 常 将 那些 被 修改 的 目录 放 在 这 个 目 
录 下 。 包 括 各 种 日 志文 件 。 

在 Linux 系统 中 ,有 几 个 目录 是 比较 重要 的 ,平时 需要 注意 不 要 误 删 除 或 者 随意 更 改 
内 部 文件 。 

/etc: 这 个 是 系统 中 的 配置 文件 ,如 果 更 改 了 该 目录 下 的 某 个 文件 可 能 会 导致 系统 
不 能 启动 。 

/bin, /sbin,，/usr/bin,， /usr/sbin: 这 是 系统 预 设 的 执行 文件 的 放置 目录 ,1s 就 是 
在 /bin/ls 目录 下 的 。 

值得 提出 的 是 ,/bin， /usr/bin 是 给 系统 用 户 使 用 的 指令 ( 除 root 外 的 通用 户 ) ,而 
/sbin,，/usr/sbin 则 是 给 root 使 用 的 指令 。 

/var: 这 是 一 个 非常 重要 的 目录 ,系统 上 运行 了 很 多 程序 ,那么 每 个 程序 都 会 有 相应 
的 日 志 产 生 ,而 这 些 日 志 就 被 记录 到 这 个 目录 下 ,具体 在 /var/log 目录 下 ,另外 mail 的 预 
设 放置 也 是 在 这 里 。 


1.5 单 用 户 模式 及 应 用 


在 使 用 Linux 系统 的 过 程 中 ,如 果 忘 记 root 密码 ,可 以 不 用 重新 安装 系统 ,进入 单 用 
户 模式 更 改 一 下 root 密码 即 可 。 

进入 单 用 户 模式 的 前 提 是 系统 引导 器 能 正常 工作 。 步 又 如 下 。 

(1) 重启 Linux 系统 ,如 图 1-9 所 示 。 


Press any key to enter the nenu 


Booting Cent0S (2.6.18-164.e15) in 3 seconds... 


图 1-9 ”Linux 重启 界面 
(2) 3s 之 内 按 一 下 Enter 键 ,出 现 界面 如 图 1-10 所 示 。 


(3) 在 GRUB 启动 菜单 中 有 a、e 和 c 三 个 操作 按键 ,使 用 这 三 个 按键 均 可 进入 单 用 
户 模式 ,如 图 1-11 所 示 。 
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GNU GRUB version 8.97 (638K lower / 239552K upper nenory) 


Cent0S (2.6.18-164.e15) 


Use the T and + keys to select which entry is highlighféd: 
Press enter to boot the selected OS. 入 向 _edit the, 
connands before booting, 'a” to nodify {DRerpeinargiinertd 
before booting, or 'c' for a command-1ine 


图 1-10 Linux 引导 界面 


root (hdg,8) 
kernel /unlinu; 
initrd “initrd 


图 1-11 启动 界面 


方法 1, 使 用 a 按键 进入 单 用 户 模式 。 这 是 推荐 使 用 的 简单 操作 。 

这 是 进入 单 用 户 模式 最 快速 的 方法 。 在 GRUB 启动 菜单 中 输入 a, 然 后 编辑 kernel 
参数 ,在 行 末 输入 single, 以 告诉 Linux 内 核 后 续 的 启动 过 程 需 要 进入 单 用 户 模 式 , 按 
Enter 键 即 可 。 

方法 2, 使 用 e 按键 进入 单 用 户 模式 。 

在 GRUB 启动 菜单 中 输入 e 进 入 CentOS 的 启动 ,如 图 1-11 所 示 。 

在 第 二 行 最 后 边 输入 single。 具 体 方法 为 按 向 下 箭头 移动 到 第 二 行 , 按 e 键 进入 编 
辑 模式 ,在 后 边 加 上 single 后 按 Enter 键 ,如 图 1-12 和 图 1-13 所 示 。 


e connand completions. Am 
of a device/filenane, 中 
at any tine accepts your changes.] 


lgrub edit> kernel /unlinuz-2.6.18-164.e15 ro root=LAB) 


initrd /in 


图 1-13 输入 参数 界面 


最 后 按 b 键 启动 ,启动 后 就 进入 单 用 户 模 式 , 如 图 1-14 所 示 。 
此 时 已 经 进入 到 单 用 户 模式 ,可 以 更 改 root 密码 ,更 改 密码 的 命令 为 passwd, 如 
图 1-15 所 示 。 
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图 1-14 单 用 户 模式 界面 


图 1-15 修改 密码 界面 


方法 3, 使 用 c 按键 进 入 单 用 户 模式 
通过 编辑 GRUB 启动 参数 可 以 轻松 地 进入 单 用 户 模式 从 而 修改 root 密码 ,这 对 于 
用 户 的 计算 机 或 服务 器 来 说 ,无 疑 增加 了 安全 隐患 。 我 们 可 以 通过 GRUB 的 

i > 数 对 GRUB 设置 密码 ,修改 /boot/grub/grub. conf 或 者 /etc/grub. conf 
(/etc/grub. conf 是 /boot/grub/grub. conf 的 符号 链接 ), 例 如 vi/boot/grub/grub. conf 
进入 配置 文件 编辑 

QD 明文 方式 

在 splashimage 这 个 参数 下 一 行 添加 :password 王 密码 。 保 存 后 重新 启动 计算 机 ,再 次 
登录 到 GRUB 菜单 页 面 的 时 候 就 会 发 现 ,这 时 已 经 不 能 直接 使 用 e 命令 编辑 启动 标签 了 , 须 
先 使 用 p 命令 ,输入 正确 的 密码 后 才能 够 对 启动 标签 进行 编辑 。 但 是 设置 了 明文 密码 也 不 
是 很 安全 ,如 果 他 人 得 到 了 明文 密码 ,仍然 可 以 修改 GRUB 启动 卷 标 从 而 修改 root 密码 。 

@ MD5 加 密 方式 

在 终端 中 输入 grub-md5-crypt 按 Enter 键 , 这 时 系统 会 要 求 输入 两 次 相同 的 密码 ,之 
后 系统 便 会 输出 MD5 码 。 只 需要 将 生成 的 MD5 密 文 复制 下 来 ,在 splashimage 这 个 
数 下 一 行 添加 : 


BR 


password-— md5$1$AKO18/$7EaafQPtx.7y20dZyL5cp0//centos 的 md5 


hiddenmenu 


保存 后 重新 启动 计算 机 ,再 次 登录 到 GRUB 菜单 页 面 的 时 候 就 会 发 现 , 这 时 已 经 不 
能 直接 使 用 e 命令 编辑 启动 标签 了 , 须 先 使 用 p 命令 ,输入 正确 的 密码 后 才能 够 对 启动 标 
签 进行 编辑 。 
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2.1 文件 系统 概述 


文件 系统 是 操作 系统 用 于 明确 存储 设备 (常见 的 是 磁盘 ,也 有 基于 NAND Flash 的 
固态 硬盘 ) 或 分 区 上 的 文件 的 存放 方法 和 数据 结构 ,当然 也 有 像 内 存 这 种 虚拟 的 文件 系统 
(vmfs) ,也 可 以 说 是 操作 系统 或 软件 对 文件 在 存储 设备 上 的 一 种 组 织 和 管理 方式 。 


2.1.1 Linux 与 Windows 文件 系统 的 区 别 


我 们 知道 不 同 的 操作 系统 所 使 用 的 文件 系统 是 不 一 样 的。 举例 来 说 , Windows 98 
以 前 所 使 用 的 是 文件 系统 FAT, Windows 2000 以 后 的 版 本 有 NTFS 文件 系统 。 至 于 
Linux 的 正规 文件 系统 则 为 EXT2(Linux second extended file system,Ext2fs)。 之 后 又 
出 现 了 改进 版 的 EXT3 和 EXT4, 总 体 上 变化 不 大 。 

根据 文件 系统 类 型 分 类 ,Windows 属于 多 根 目 录 文件 系统 ,Linux 属于 根 目 录 文 件 系 
统 。 由 于 长 期 使 用 Windows 操作 系统 ,用 户 已 经 形成 了 一 种 惯性 思维 ,各 种 文件 分 类 都 
是 按照 C.D\E 这 种 盘 符 进行 大 分 类 的 文件 系统 ,Windows 系统 每 个 盘 符 都 对 应 一 个 根 
目录 ,所 以 Windows 更 倾向 于 像 基 于 硬盘 分 区 的 文件 系统 , 即 先 有 分 区 ,再 有 Windows 
的 文件 系统 ;Linux 文件 系统 更 倾向 于 先 有 固定 的 目录 结构 ,然后 再 有 分 区 ,分 区 (或 网 络 
上 任何 一 个 硬件 ) 再 挂 到 不 同 的 目录 上 。 

由 此 会 带 来 一 个 使 用 上 的 区 别 , 本 来 应 该 是 Linux 设计 的 根 文件 系统 更 加 符合 人 的 
思维 方式 ,但 长 期 的 使 用 习惯 ,以 及 不 熟悉 手动 挂 载 的 方式 ,计算 机 用 户 思 维 已 经 固化 为 
多 根 目录 结构 的 Windows 系统 了 ,其 实 Windows 文件 系统 也 有 挂 载 的 概念 ,只 不 过 
Windows 会 自动 挂 载 分 区 到 不 同 的 目录 上 , 即 所 谓 的 CD 盘 。 


2.1.2 文件 系统 层次 分 析 


文件 系统 由 上 而 下 主要 分 为 用 户 层 .VFS -一 一 一 
层 \ 文 件 系统 层 、 缓 存 层 、 块 设备 层 、 磁 盘 驱 动 VimwalFile Sysem |] Kemel 
层 ,磁盘 物理 层 ,如 图 2-1 所 示 。 Ext3/4| | XFS | [YAFFS| | NFS 

Q@ 用 户 层 : 最 上 面 用户 层 就 是 日 常 使 用 ”万 PageCache 
的 各 种 程序 ,需要 的 接口 主要 是 文件 的 创建 、 了 了 
删除 .打开 ,关闭 、 写 、 读 等 。 Dock Device Driver 

@ VFS 层 : Linux 分 为 用 户 态 和 内 核 TT 


1 1 1 

态 ,用 户 态 请 求 硬件 资源 需要 调用 System [DIDriver] [Flash Drivar Ce) 
Call 通过 内 核 态 去 实现 。 用 户 的 这 些 文件 相 Storage device 

关 操 作 都 有 对 应 的 System Call 函数 接口 , 接 2-1 文件 系统 层次 结构 


第 2 章 文件 系统 及 动态 磁盘 管理 17 


口 调用 VFS 对 应 的 函数 。 

@ 文件 系统 层 : 不 同 的 文件 系统 实现 了 VFS 的 这 些 函 数 ,通过 指针 注册 到 VFS 里 
面 。 所 以 ,用 户 的 操作 通过 VFS 转 到 各 种 文件 系统 。 文 件 系 统 把 文件 读 写 命令 转化 为 对 
磁盘 LBA 的 操作 ,起 了 一 个 翻译 和 磁盘 管理 的 作用 。 

@ 缓存 层 : 文件 系统 底下 有 缓存 (Page Cache) ,加 速 性 能 。 对 磁盘 LBA 的 读 写 数据 
缓存 到 这 里 。 

@ 块 设备 层 : 块 设备 接口 Block Device 是 用 来 访问 磁盘 LBA 的 层级 , 读 写 命令 组 合 
之 后 插入 到 命令 队列 ,磁盘 的 驱动 从 队列 读 命令 执行 。Linux 设计 了 电梯 算法 等 算法 对 
很 多 LBA 的 读 写 进行 优化 排序 ,尽量 把 连续 地 址 放 在 一 起 。 

磁盘 驱动 层 : 磁盘 的 驱动 程序 把 对 LBA 的 读 写 命令 转化 为 各 自 的 协议 ,比如 变 
成 ATA 命令 ,SCSI 命 令 , 或 者 是 自己 硬件 可 以 识别 的 自 定义 命令 ,发 送 给 磁盘 控制 
器 。Host Based SSD 其 至 在 块 设备 层 和 磁盘 驱动 层 实现 了 FTL, 变 成 对 Flash 芯片 的 
操作 。 

@ 〇 磁盘 物理 层 : 读 写 物理 数据 到 磁盘 介质 。 


2.1.3 索引 式 文件 系统 


操作 系统 上 的 文件 数据 ,除了 实际 内 容 外 ,通常 含有 非常 多 的 属性 ,例如 Linux 上 的 
文件 权限 (rwx) 和 文件 属性 (拥有 者 、 群 组 .时 间 参 数 等 ) 。 

索引 式 文件 系统 通常 会 把 文件 实际 内 容 和 文件 权限 属性 分 别 存放 在 不 同 的 磁盘 块 。 
文件 权限 与 属性 存放 在 inode 中 ;实际 内 容 存放 在 data block 块 ( 简 称 block) 中 ;每 个 文 
件 系统 还 有 一 个 超级 块 (superblock)。 每 个 inode 和 block 都 有 编号 ,不 同文 件 系统 的 
inode block 编号 是 独立 的 。inode 和 block 在 格式 化 后 不 再 变动 ,除非 重新 格式 化 或 文 
件 系 统 大 小 变动 。 

。 superblock: 记录 此 文件 系统 的 整体 信息 ,如 inode、block 的 总 量 、 使 用 量 、 剩 余 量 ， 

文件 系统 的 格式 等 。superblock 非常 重要 ,一旦 损坏 整个 文件 系统 就 无 法 使 用 。 

”inode: 又 称 " 索 引 节 点 ”, 每 一 个 inode 对 应 一 个 文件 或 目录 ,记录 了 文件 的 大 小 、 

所 占用 的 block 以 及 目录 的 directory block 信息 。 

a block: 文件 系统 中 存储 数据 的 最 小 单元 ,ext3 文件 系统 中 ,创建 时 默认 4KB, 分 为 

存储 文件 数据 的 data block 和 存储 目录 数据 的 directory block 。 

由 于 每 个 inode 和 block 都 有 编号 ,每 个 文件 都 会 占用 一 个 inode,inode 会 记录 文件 
数据 放置 的 block 号 码 。 因 此 ,如 果 能 够 找到 文件 的 inode, 就 可 以 知道 这 个 文件 所 放置 
数据 的 block 号 码 ,当然 也 就 可 以 读 出 该 文件 的 实际 数据 了 。 这 是 个 比较 有 效率 的 方法 ， 
这 样 磁 盘 就 能 够 在 短 时 间 内 读 取 出 全 部 的 数据 , 读 写 的 效率 比较 高 ,如 图 2-2 所 示 。 

假设 某 一 个 文件 的 属性 和 权限 信息 存放 在 3 号 的 inode 上 ,而 这 个 inode 记录 了 文件 
实际 数据 点 为 1.4、6、11 这 4 个 block 号 码 , 此 时 操作 系统 就 能 够 据 此 来 排列 磁盘 的 阅读 
顺序 ,并 且 可 以 扫描 一 次 就 将 4 个 block 内 容 读 出 来 , 读 取 如 图 2-2 所 示 ,此 方法 称 为 索 
引 式 文件 系统 (indexed allocation) 。 索 引 式 文件 系统 在 每 两 个 文件 之 间 都 留 有 相当 巨大 
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的 空闲 空间 。 当 文件 被 修改 ,体积 增加 时 ,通常 有 足够 的 空间 来 扩展 。 因 此 在 一 定 程度 上 
保证 了 block 的 访问 范围 不 会 跨度 很 大 , 减 小 了 磁头 的 移动 距离 。 

FAT 格式 的 文件 系统 没有 inode, 所 以 FAT 无 法 将 这 个 文件 的 所 有 block 在 一 开始 
就 读 取出 来 。 每 个 block 号 码 都 记录 在 前 一 个 block 当中 , 它 的 读 取 方 式 如 图 2-3 所 示 。 


2-2 索引 式 文件 系统 存 取 示意 图 图 2-3 FAT 文 件 系统 存 取 示 意图 


我 们 假设 文件 的 数据 依次 写 入 16 一 3 一 12 号 这 4 个 block 号 码 中 ,但 这 个 文件 系 
统 无 法 同时 知道 4 个 block 的 号 码 , 它 需要 一 个 一 个 地 将 block 读 出 后 , 才 会 知道 下 一 个 
block 在 何 处 。 如 果 同 一 个 文件 数据 写 入 的 block 分 散 得 太 多 时 ,磁头 将 无 法 在 磁盘 转 一 
圈 就 读 到 所 有 的 数据 ,而 需要 转 好 几 圈 才能 完整 地 读 到 这 个 文件 的 内 容 。 对 于 FAT 文 
件 系 统 , 需 要 经 常 进行 碎片 整理 的 原因 就 是 由 于 文件 写 入 的 block 太 分 散 了 ,导致 磁盘 读 
取 效 率 大 大 降低 ,通过 碎片 整理 将 同一 个 文件 所 属 的 block 汇集 在 一 起 ,这 样 数据 的 读 取 
会 比较 快 ,而 对 于 索引 式 文 件 系统 来 说 基本 不 太 需 要 进行 碎片 整理 。 


2.1.4 Linux 文件 系统 的 运作 


所 有 的 数据 都 需要 加 载 到 内 存 后 CPU 才能 够 对 该 数据 进行 处 理 。 对 于 编辑 量 很 大 
的 文件 ,在 编辑 的 过 程 中 需要 频繁 地 写 入 到 磁盘 中 ,而 磁盘 的 写 入 速度 比 内 存 慢 很 多 ,所 
以 需要 等 待 硬盘 的 读 取 和 写 人 ,大 大 降低 了 CPU 的 执行 效率 。 为 了 解决 这 个 问题 ， 
Linux 使 用 的 是 一 个 称 为 异步 处 理 (asynchronously) 的 方式 。 异 步 处 理 的 方案 如 下 : 

当 系 统 加 载 一 个 文件 到 内 存 后 ,如 果 该 文件 没有 被 更 改过 , 则 在 内 存 区 段 的 文件 数据 
会 被 设 定 为 干净 (clean) 的 。 但 如 果 内 存 中 的 文件 数据 被 更 改过 了 (例如 你 用 nano 去 编 
辑 过 这 个 文件 ) ,该 内 存 中 的 数据 会 被 设 定 为 脏 的 (dirty)。 此 时 所 有 的 更 改 都 还 在 内 存 
中 执行 ,并 没有 写 人 到 磁盘 中 。 系 统 会 不 定时 地 将 内 存 中 设 定 为 (dirty) 的 数据 写 回 磁 
盘 , 以 保持 磁盘 与 内 存 数 据 的 一 致 性 。 

内 存 的 速度 要 比 硬盘 快 很 多 ,因此 将 待 用 的 文件 放置 到 内 存 当 中 ,可 以 大 大 地 提高 系 
统 的 效率 。 

J@ 系统 将 常用 的 文件 数据 放置 到 主 存储 器 的 缓冲 区 ,以 加 速 文件 系统 的 读 写 , 因 此 
Linux 的 物理 内 存 最 后 都 会 被 用 光 以 便于 加 速 系统 效能 

@ 可 以 使 用 sync 来 强行 将 内 存 中 设 定 为 dirty 的 文件 回 写 到 磁盘 中 ; 

@ 若 正常 关机 ,关机 指令 会 主动 调用 sync 来 将 内 存 的 数据 回 写 人 磁盘 内 ; 
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@ 若非 正常 关机 ,由 于 数据 尚未 来 得 及 回 写 到 磁盘 内 ,因此 重新 启动 后 可 能 会 花 很 
多 时 间 进 行 磁盘 检验 ,甚至 可 能 导致 文件 系统 的 损坏 。 


2.2 EXT 文件 系统 


EXT(Extended file system) 是 Linux 支持 的 正规 文件 系统 ,文件 系统 是 用 来 管理 和 
组 织 保存 在 磁盘 驱动 器 上 数据 的 系统 软件 , 它 使 用 文件 和 树 形 目录 的 抽象 逻辑 概念 ,用 户 
使 用 文件 系统 来 保存 数据 时 不 必 关 心 数据 实际 保存 在 硬盘 上 地 址 为 多 少 的 数据 块 上 ,只 
需要 记 住 这 个 文件 的 所 属 目录 和 文件 名 。 


2.2.1 EXT 文件 系统 结构 


Linux 的 EXT 系列 文件 系统 就 是 一 种 索引 式 文件 系统 。 当 inode 与 block 过 多 时 ， 
为 便于 管理 ,EXT 文件 系统 在 格式 化 时 ,划分 了 多 个 块 组 (block group)。 每 个 块 组 都 有 
独立 的 superblock、inode 和 block。 

EXT 文件 系统 最 前 端 有 一 个 启动 扇 区 (boot sector), 可 安装 引导 程序 
(bootloader) ,从 而 制作 出 多 重 引导 环境 (安装 不 同 操作 系统 ), 而 不 用 覆盖 整 块 磁盘 唯一 
的 MBR。EXT 文件 系统 总 体 结构 如 图 2-4 所 示 。 


启动 


扇 区 block groupl block group2 block group n... 


图 2-4 EXT 文 件 系统 总 体 结构 


每 个 块 组 结构 如 图 2-5 所 示 。 


Super 人 块 对 应 表 data block 


图 2-5 各 组 块 结构 


1. superblock 


superblock 记录 的 信息 主要 有 : 

a inode 与 block 的 总 量 ; 

”已 使 用 和 未 使 用 的 inode、block 数量 ; 

a block 与 inode 的 大 小 。block 大 小 只 能 是 1KB、2KB 或 4KB,inode 大 小 为 128B 
或 256B(EXT4); 

"最 近 一 次 挂 载 , 写 人 ,检验 时 间 ; 

"文件 系统 是 否 已 被 挂 载 等 。 
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每 个 文件 系统 仅 有 一 个 superblock。 结 合 图 2-5 ,除了 第 一 个 块 组 有 superblock 外 ， 
其 他 块 组 没有 。 其 他 块 组 如 果 有 ,也 是 为 了 备份 ,内 容 和 第 一 个 块 组 中 的 superblock 一 
样 ,因为 superblock 记录 的 信息 很 重要 。 


2. 文件 系统 描述 (GDT) 


记录 每 个 块 组 开始 与 结束 的 block 号 码 , 及 各 块 组 中 6 个 区 段 的 开始 与 结束 的 
block 。 


3. 块 对 应 表 

记录 哪些 号 码 的 block 未 使 用 .哪些 已 经 使 用 。 
4. inode 对 应 表 

记录 哪些 号 码 的 inode 未 使 用 ,哪些 已 经 使 用 。 


5. inode table 


inode 保存 的 信息 ,至 少 有 : 

”访问 权限 (rwx) ,包括 特殊 权限 (SUID 等 ); 
" 属 主 , 属 组 ; 

"时 间 截 ; 

文件 大 小 ; 


文件 的 实际 内 容 指 向 , 即 实际 内 容 在 哪些 block 中 。 

每 个 inode 大 小 是 固定 的 ,EXT2、EXT3 是 128B,EXT4 是 256B。 

每 个 文件 对 应 一 个 inode, 所 以 inode 的 个 数 决定 了 一 个 文件 系统 上 能 创建 的 文件 个 
数 。 用 户 在 读 取 文 件 时 ,系统 先 找到 inode, 然 后 分 析 这 个 inode 记录 的 权限 是 否 与 用 户 
符合 , 若 符合 即 读 取 该 inode 指向 的 block 的 内 容 。 

inode 本 身 也 是 存储 在 磁盘 block 上 的 ,比如 EXT3 的 每 个 inode 大 小 128B, 那 么 一 
个 1KB 的 block 可 存储 8 个 inode。 


6. data block 


存储 文件 内 容 , 每 个 block 大 小 只 能 是 1KB、2KB 或 4KB, 具 体 使 用 的 大 小 会 在 
superblock 中 记录 ;每 个 block 只 能 存 一 个 文件 的 数据 。 若 文件 内 容 大 于 1 个 block, 则 
使 用 多 个 block 存储 ;车 文件 内 容 小 于 一 个 block, 比如 一 个 1KB 的 文件 ,文件 系统 的 
block 大 小 使 用 的 是 2KB, 那 么 这 个 block 有 1KB 是 浪费 的 。 


2.2.2 查看 文件 系统 命令 
1. 命令 df 
用 于 显示 当前 已 挂 载 的 各 文件 系统 对 应 的 磁盘 空间 使 用 情况 ,如 图 2-6 所 示 。 


最 
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[rootBlocalhost ~]# df 


Mounted on 


v/shm 
boot 


图 2-6 df 命令 执行 结果 


s Filesystem: 当前 已 挂 载 的 所 有 文件 系统 ; 

。 1K-blocks: 文件 系统 大 小 ,单位 为 KB; 

" Used: 已 使 用 大 小 ; 

" Available: 剩余 可 使 用 大 小 ; 

=。 Use% : 已 使 用 的 百分比 ; 

a Mounted on: 文件 系统 的 挂 

df 后 的 参数 也 可 以 是 目录 , 则 显 示 的 是 该 目录 所 在 文件 系统 的 已 使 用 大 小 与 空闲 大 
小 ,而 这 也 就 是 该 目录 下 目前 可 使 用 的 空闲 大 小 。 选 项 -h 表示 以 人 易 读 方式 显示 ， 
则 显示 文件 系统 的 inode 的 使 用 量 与 剩余 量 , 如 图 2-7 和 图 2-8 所 示 。 


图 2-7 df 参数 h 执行 结 


图 2-8 df 命令 参数 i 执行 结果 


2. 命令 du 


用 于 显示 目录 文件 所 占用 的 磁盘 空间 ,如 图 2-9 所 示 的 情况 


~I# ls -IRaaa 


-rw-r-r- 


图 2-9 du 命令 执行 结果 


命令 ls -1 结果 的 第 5 字段 是 文件 的 实际 大 小 ;而 使 用 命令 du 可 知 文件 占用 磁盘 空 
间 的 大 小 : 


[rootelocal ~ ]# du -h aaa # 默 认 显 示 目 录 aaa 及 其 子 目录 所 占 空 间 


Re 
_ 
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36K aaa/b dir 

76K aaa 

[rootelocal ~ ]# du - sh aaa 
和 ,包括 目录 aaa 

76K aaa 

[rootelocal ~ ]# du -Sh aaa 

36K aaa/b dir 

40K aaa 

[rootelocal ~ ]# du -ah aaa 

4.0K 。 aaa/mtab.bak 

28K aaa/b dir/d file 

4.OK aaa/b dir/c file 

36K aaa/b dir 

4.0K 。 aaa/fstab.bak 

28K aaa/functions.bak 

76K aaa 


3. 命令 dumpe2fs 
用 于 显示 某 EXT 文件 系统 信息 
参数 就 是 其 对 应 的 设备 文件 /dev/sdal: 


dumpe2fs /dev/sdal 


显示 结果 的 开头 部 分 如 图 2-10 所 示 


。 例 如 显示 上 述 的 挂 载 点 


# 选 项 - 3, 最 为 常用 ,显示 目录 aaa 下 所 有 文件 占用 空间 大 小 之 


# 选 项 - s, 目 录 aaa 的 子 目录 不 计 人 aaa 所 占用 的 空间 


# 选 项 -av 分 别 显 示 目 录 aaa 下 所 有 目录 ,文件 所 占 空 间 


为 /boot 的 文件 系统 


信息 ， 


图 2-10 


dumpe2fs 命令 执行 结果 一 


命令 执行 结果 开头 部 分 是 该 文件 系统 superblock 的 信息 
部 分 。 可 以 看 到 superblock 记录 的 该 文件 系统 inode 数 .bloc 
总 体 信息 。 

显示 结果 的 后 部 分 如 图 2-11 所 示 。 


.限于 篇 幅 这 里 仅 截取 
x 数 block 大 小 等 文件 系统 


-小 


由 于 块 组 数量 过 多 , 仅 截 取 前 两 块 组 。 可 以 看 到 各 块 组 
所 在 位 置信 息 ,空闲 inode、block 信息 等 。 

该 命令 的 显示 结果 中 , 块 组 中 
结果 中 , 块 组 0 信息 显示 ,超级 块 在 1 号 block 中 ,也 可 看 到 每 
同上 述 描述 的 EXT 文件 系统 总 体 结构 是 一 致 的 。 


bh 的 所 有 数字 都 表示 block 号 


P 的 块 对 应 表 ,inode 对 应 表 


合作 局 


码 。 如 上 截取 的 命令 显示 
个 块 组 都 紧 接 上 一 个 块 组 ， 
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图 2-11 dumpe2fs 命令 执行 结果 二 


2.2.3 EXT 文 件 系统 存储 和 读 取 文件 
1. 存储 文件 


1) 对 于 目录 
(1) 目录 文件 的 inode。 
每 个 文件 对 应 一 个 inode, 目 录 文 件 也 一 样 。 其 中 记录 了 该 目录 的 权限 、 属 性 、 保 存 目 
录 实 际 内 容 的 block 的 号 码 。 

(2) 目录 文件 的 block 

目录 的 block 记录 的 是 在 该 目录 下 的 文件 名 和 这 些 文件 名 对 应 的 inode 号 。 当 文件 
数量 过 多 , 则 用 多 个 block 记录 

由 此 可 知 ,目录 并 不 是 存储 文件 的 “容器 ”, 它 的 实 
联 , 文 件 实际 内 容 并 不 在 目录 内 

2) 对 于 文件 

文件 的 inode 也 是 存储 权限 、 属 性 保存 文件 实际 内 容 的 block 的 号 码 ;文件 实际 内 容 


内 容 仅 是 文件 名 和 inode 号 的 关 


存储 在 这 些 block 中 。 
2. 读 取 文 件 过 程 
以 文件 /etc/group 为 例 , 相 关 目 录 和 文件 inode 号 如 图 2-12 所 示 。 


[root@localhost ~]# 1s -dil / /etc /etc/group 
2 dr-xr-xr-x. 22 root root 4896 Aug 23 86:19 / 


3145729 drwxr-xr-x. 63 root root 4896 Aug 23 11:01 /etc 
455 Aug 21 68:64 /etc/group 


3146666 -rw-r--r--- 1 root root 


图 2-12 显示 目录 及 文件 


其 读 取 过 程 如 图 2-13 所 示 。 
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C3 ele em 
(ee Ninode ) ( ) GE 
inode 
和 % 


/etc/group 文 件 的 
block 2 
图 2-13 读 取 文 件 过 程 


椭圆 框 表示 inode, 方 框 表示 数据 block , 读 取 步骤 如 下 : 

(1) 目录 树 由 根 目 录 开 始 , 系 统 通 过 挂 载 的 信息 可 找到 挂 载 点 的 inode 号 码 为 26, 从 
而 找到 根 目录 的 inode。 根 目录 的 inode 保存 了 根 目录 的 属性 权限 、 根 目录 内 容 的 block 
号 码 ; 

(2) 车 用 户 对 于 根 目 录 有 相关 权限 , 则 访问 根 目 录 的 block, 从 而 可 知 目录 /etc 的 
inode 号 码 为 3145729; 

(3) 找到 目录 /etc 的 inode, 它 保存 了 其 属性 权限 .实际 内 容 的 block 号 码 ; 

(4) 若 用 户 对 于 /etc 目录 有 相关 权限 , 则 访问 /etc 目录 的 block, 从 而 可 知 文件 /etc/ 
group 的 inode 号 码 为 3146660; 

(5) 找到 文件 /etc/group 的 inode, 它 保存 了 其 属性 、 权 限 、 实 际 内 

(6) 车 用 户 对 于 /etc/group 文件 有 相关 权限 , 则 可 读 取 其 内 容 。 


2.2.4 创建 文件 过 程 与 日 志文 件 系统 
1. 创建 文件 过 程 


(1) 用 户 执 行 创建 命令 后 ,系统 先 检查 用 户 对 于 创建 文件 的 目录 是 否 具有 w、x 权 
限 , 有 则 可 创建 。 

(2) 检查 inode 对 应 表 ,找到 空 inode, 把 新 文件 的 权限 属性 写 和 其中。 

(3) 检查 块 对 应 表 , 把 文件 实际 内 容 写 入 空 block ,然后 更 新 inode 的 数据 ,使 其 指向 
这 些 block。 

(4) 创建 完毕 后 ,更 新 inode 对 应 表 、 块 对 应 表 、superblock 的 内 容 。 


2. 数据 不 一 致 状态 


如 果 上 述 创建 文件 的 过 程 中 ,内 容 都 已 写 人 完毕 ,此 时 突然 断 电 导致 inode 对 应 表 、 
块 对 应 表 、superblock 没有 更 新 完毕 , 则 会 造成 数据 不 一 致 状态 ,也 就 是 superblock 和 两 
份 对 应 表 记 录 的 信息 与 实际 不 符 。 


容 的 block 号 码 ; 
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3. 日 志文 件 系统 


数据 不 一 致 状态 若 出 现 , 如 果 无 法 确定 是 哪个 文件 数据 不 一 致 , 则 需 检 查 整个 文件 系 
统 的 superblock ,inode 对 应 表 、 块 对 应 表 与 实际 数据 进行 对 比 。 

为 避免 这 种 情况 ,可 使 用 专门 的 块 (即日 志 记录 块 ) 来 记录 文件 写 和 人 时 的 步骤 ,记录 大 
致 如 下 : 

(1) 文件 准备 写 人 时 ,系统 会 先 在 该 块 记录 “ 某 文件 准备 写 人 ”。 

(2) 写 人 权限 属性 信息 到 文件 的 inode, 写 入 实际 数据 到 文件 的 block。 然 后 更 新 
superblock ,inode 对 应 表 、. 块 对 应 表 信息 。 

(3) superblock ,inode 对 应 表 、 块 对 应 表 信 息 更 新 完毕 后 ,日 志 记 录 块 完成 记录 。 

显然 第 (2) 步 就 是 写 人 的 全 部 操作 ,可 通过 (1)、(3) 步 日 志 记 录 块 的 不 同 信息 来 判断 
写 和 操作 是 否 完全 完成 。 如 果 某 文件 没有 完全 写 入 完成 , 则 日 志 记 录 块 记录 的 就 会 是 某 
文件 在 第 (1) 步 的 “准备 写 和 人” 状态 ,系统 可 以 根据 日 志 记 录 块 判断 出 是 哪个 文件 数据 不 一 
致 而 不 用 检查 整个 文件 系统 ,大 大 提高 效率 。 

EXT3 之 后 的 文件 系统 均 为 日 志文 件 系 统 。 


2.2.5 链接 文件 
1. 硬 链接 


目录 的 实际 内 容 是 文件 名 和 inode 的 对 应 ,那么 如 果 多 个 文件 名 对 应 同一 个 inode， 
则 它们 互 为 硬 链接 。 

创建 硬 链接 ,也 就 是 在 目录 下 创建 一 个 新 文件 名 对 应 到 已 有 的 一 个 inode, 比如 在 
root 目录 下 创建 /etc/fstab 的 硬 链接 ,使 用 命令 In, 如 图 2-14 所 示 。 


图 2-14 创建 硬 链 接 


可 以 看 到 这 两 个 文件 的 inode 号 码 是 一 样 的 ,所 以 它们 的 权限 、 属 性 、 实 际 内 容 也 是 
- 样 的 。 上 述 结果 ,两 文件 的 第 三 字段 均 为 2, 表示 该 文件 被 硬 链接 的 次 数 ( 即 有 和 多少 文 

件 名 对 应 到 这 个 inode 号 码 ) 。 

读 取 这 两 个 文件 过 程 如 图 2-15 所 示 ( 由 根 目 录 到 /etc、/root 的 过 程 略 去 ) 。 

用 哪个 文件 名 访问 是 一 样 的 。 硬 链接 的 好 处 是 安全 ,如 果 把 文件 /etc/fstab 删除 , 则 
仍 可 通过 文件 /root/fstab 访问 。 

注意 : 

J@ 硬 链接 不 能 跨 文 件 系 统 。 

因为 各 文件 系统 的 inode 号 码 是 独立 的 。 一 个 目录 的 数据 block 中 的 文件 名 ,无 法 对 
应 到 别 的 文件 系统 的 inode 号 码 。 

@ 不 能 对 目录 创建 硬 链接 。 
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/etc/fstab 文 件 的 录 的 i 
inode 


/ete 目 录 的 block || 《te Stab 文 件 的 | root 目 录 的 block 


图 2-15 读 取 文件 过 程 


因为 目录 的 内 容 保 存 的 是 文件 名 和 对 应 inode, 如 果 两 个 目录 指向 同一 个 inode， 它们 
的 内 容 应 是 一 致 的 ,可 以 认为 这 两 个 目录 下 的 文件 名 和 对 应 的 inode 也 完全 一 样 , 也 曾 
说 两 个 目录 下 的 所 有 文件 互 为 硬 链接 。 但 是 一 个 空 目录 在 创建 后 , 硬 链接 次 数 却 为 
图 2-16 所 示 。 
这 是 因为 每 个 目录 下 都 有 “. ”这 个 目录 , 指 的 就 是 当前 目录 ， ce 于 硬 链接 。 
若 一 个 目录 下 及 n 个子 目录 , 则 这 个 目录 硬 链 接 次 数 就 是 nn 十 1( 十 1 是 因为 上 述 的 
”) ,如 图 2-17 所 示 。 


图 2-16 空 目录 硬 链接 图 2-17 硬 链 接 示意 图 


是 因为 每 个 目录 下 都 有 “..” 这 个 目录 ,表示 当前 目录 的 上 一 层 目录 。 所 以 一 个 目 
县 人 Eee 于 目录 的 “.. "部 相 当 于 硬 链接 A。 一 个 目录 有 nn 个 子 目录 就 被 硬 链接 
n 十 1 次 。 


2. 软 链 接 


软 链接 也 称 符 号 链接 (Symbolic Link) ,就 相当 于 Windows 下 的 快捷 方式 。 与 硬 链 
接 不 同 , 软 链接 是 独立 的 文件 ,只 是 其 内 容 保存 的 是 指向 的 文件 名 ,也 可 以 指向 目录 。 
创建 软 链接 ,如 图 2-18 所 示 。 


链接 文件 a_link 大 小 为 7B, 因 为 它 保留 的 内 容 是 文件 /root/a 的 文件 名 
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链接 文件 访问 过 程 ,如 图 2-19 所 示 。 


[L | [L 
[I i jj 


图 2-19 软 链接 访问 过 程 


主要 说 明 软 链接 的 访问 过 程 ,通过 a_link 文件 的 所 在 目录 找到 其 inode 的 过 程 略 去 。 
所 以 过 程 大 致 是 : 

(1) 通过 文件 a_link 的 inode 找到 其 block; 

(2) a_link 的 block 中 保存 了 文件 a 的 文件 名 ,所 以 可 找到 其 inode( 通 过 文件 a 的 文 
件 名 一 级 级 找到 其 inode, 这 里 略 去 了 过 程 ); 

(3) 通过 文件 a 的 inode 找到 其 block 。 

因为 软 链接 是 指向 目标 文件 的 ,如 果 目 标 文件 被 删除 , 则 访问 软 链接 会 报错 。 这 个 由 
图 2-19 访问 过 程 也 可 看 出 ,如 果 文 件 a 被 删除 , 即 文件 名 a 不 存在 了 , 则 它 与 inode 也 就 
不 再 关联 , 则 访问 步骤 就 中 断 了 。 


a_link 文 件 的 block a 文件 的 block 


2.3 文件 操作 管理 


在 Windows 上 安装 一 个 软件 ,可 以 通过 360 管家 实现 。 因 为 360 管家 提供 了 软件 的 
安装 、 印 载 ,并 且 解 决 了 软件 之 间 的 依赖 等 相关 问题 ,实现 了 软件 的 一 键 安装 。 在 Linux 
上 有 一 个 提供 了 和 360 管家 类 似 功 能 的 工具 ,叫做 yum。 使 用 yum 就 可 以 做 到 一 个 命令 
安装 软件 ,并 且 不 同 版 本 的 Linux 有 不 同 的 工具 ,例如 红 帽 (read hat)。Linux 就 使 用 的 
rpm(read hat package manager, 红 帽 软 件 包 管理 工具 ) 。 

yum 源 是 什么 呢 ? 安装 软件 的 时 候 需 要 下 载 软件 ,将 很 多 软件 放 在 一 起 就 是 源 。 所 
以 yum 源 就 是 软件 安装 包 的 来 源 。 如 果 是 在 线 的 ,会 在 网 上 下 载 安装 包 , 如 果 是 离线 的 ， 
就 只 能 配置 本 地 的 yum 源 。 


2.3.1 配置 本 地 yum 源 


上 面 说 过 yum 源 就 是 软件 安装 包 的 来 源 , 但 是 这 些 安装 包 哪 里 有 呢 ? 其 实在 Linux 
的 安装 镜像 中 就 有 ,Linux 已 经 将 常见 的 安装 包 放 到 了 Linux 镜像 中 。 如 果 使 用 压缩 文 
件 打开 Linux 的 iso 镜像 文件 ,会 发 现在 根 目 录 下 有 个 文件 夹 Packages, 如 图 2-20 所 示 。 

图 2-20 就 是 使 用 压缩 软件 打开 的 系统 盘 内 部 情况 ,比如 常用 的 工具 vim, 就 是 在 这 
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图 2-20 Linux 镜像 文件 中 的 内 容 


里 面 的 。 所 以 说 ,系统 的 安装 镜像 就 可 以 当 作 yum 源 。 


配置 本 地 yum 源 步 骤 如 下 。 

(1) 创建 挂 载 文件 。 

[root@centos7 ~ ]#mkdir /mnt/cdrom # 创 建文 件 

(2) 挂 载 光 驱 。 

[root@centos7 ~ ]#mount /dev/cdrom /mnt/cdrom/ # 挂 载 光驱 

mount: /dev/sr0 is write- protected, mounting read- only # 挂 载 成 功 
[root@centos7 ~ ]# 11 /mnt/cdrom/ # 查 看 挂 载 的 文件 夹 
total 1550 


-Iw-I--I--。1 root root 14 Dec 5 21:02 CentOS BuildTag 

drwxr- xr- x. 3 root root 2048 Dec 5 21:20 EFI 

-IW-r--r--. 1 root root 215 Dec 10 2015 EULA 

-IW-r--r--. 1 root root 18009 Dec 10 2015 GPL 

drwxr- xr- x. 3 root root 2048 Dec 5 21:47 images 

drwxr- xr- x. 2 root root 2048 Dec 5 21:20 isolinux 

drwxr- xr- x. 2 root root 2048 Dec 5 21:20 LiveOS 

drwxrwxr- x. 2 root root 1548288 Dec 5 20:59 Packages 
drwxrwxr- x. 2 root root 4096 Dec 5 21:42 repodata 

-IW-r--r--. 1 root root 1690 Dec 10 2015 RPM- GPG- KEY- CentOS- 7 
—IW-Ir-—-Ir-—. 1 root root 1690 Dec 10 2015 RPM- GPG- KEY- CentOS- Testing-7—-r--r--r--.1 
root root 2883 Dec 5 21:52 TRANS .TBL 


(3) 查看 yum 目录 。 


[root@centos7 ~ ]# 11 /etc/yum.repos.d/ 

total 28 

-rw-r--r-- .1 root root 1664 Nov 30 02:12 Centos-Base.repo  。 # 网 络 yum 源 文件 
-rw-r-—r-—. 1 root root 1309 Nov 30 02:12 Centos- CR.repo 

-rw-r--Ir-- . 1 root root 649 Nov 30 02:12 Centos- Debuginfo.repo 


—IW-I-—-I-—. 1 root root 314 Nov 30 02:12 CentOS- fasttrack.repo 
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-rw-r--r--.1zroot root 656 May 18 10:05 Centos-Media.repo ”## 本 地 yum 源 文件 


-rw-r- . 1 root root 1331 Nov 30 02:12 Centos- Sources.repo 


—IW-I-—I-—. 1 root root 2893 Nov 30 02:12 CentOS-Vault.repo 
(4) 修改 yum 源 文件 。 


[root@centos7 ~ ]# nano /etc/yum.repos.d/CentOS- Media.repo # 修 改 本 地 yum 源 文件 
# CentOS- Media.repo 

# 

#This repo can be used with mounted DVD media, verify the mount point for 

# CentOS- 7. You can use this repo and yum to install items directly off the #DVD ISO that we 
release. 

# 

# To use this repo, put in your DVD and use it with the other repos too: 

# Yum - -enablerepo=c7-media [command] 


# 

#0or for ONLY the media repo, do this: 

# 

# Yum -—disablerepo=\* —-enablerepo=c7-media [command] 

[c7-media] # 库 名 称 

name=CentOS- $ releasever - Media # 名 称 描述 

baseurl= file:///media/CentOs/ #yum 源 目录 , 源 地 址 
file:///media/cdrom/ # 这 三 个 是 系统 的 默认 本 地 yum 源 的 地 址 
file:///media/cdrecorder/ 

gpgcheck=1 # 检 查 GPG- KEY, 0 为 不 检查 ,1 为 检查 # 
enabled=0 # 是 否 用 该 yum 源 ,0 为 禁用 ,1 为 使 用 


gpgkey= file:///etc/pki/rpm- gpg/RPM- GPG- KEY- Cent0S- 7 #GPG-KEY 密 钥 ,gpgcheck 的 值 为 0 
时 不 需要 配置 


(5) 修改 后 结果 。 


[c7-media] 

baseurl= file:///mnt/cdrom/ # 在 这 里 加 一 行 刚才 光盘 挂 载 的 路 径 
file:///media/CentOS/ 

file:///mdia/cdrom/ 

file:///media/cdrecorder/ 

gpgcheck=1 

enabled=1 # 把 enabled 的 值 改 为 1, 启 用 这 个 yum 源 


(6) 修改 网 络 yum 源 文 件 。 


[root@centos7 ~ ]#mv /etc/yum.repos.d/Cent0S- Base.repo{, .bak} # 这 个 文件 后 面 加 上 .bak 绕 
过 网 络 yum 源 


(7) 清除 本 地 缓存 。 


[root@centos7 ~ ]#yum clean all 
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(8) 查看 本 机 yum 源 。 


[root@centos7 ~ ]# yum repolist 
Loaded plugins: fastestmirror, langpacks 


c7-media | 3.6 kB 00:00:00 (1/2): 
c7-media/group gz 1 155 kB 00:00:00 (2/2): 
c7-media/primary db | 5.6 MB 00:00:00 Determining 
fastest mirrors 

x* cl-media: 

repo id repo name status 

c7-media Centos- 7 -Media 9,363 # 创 建 的 本 地 yum 源 已 经 识别 出 来 


repolist: 9,363 
(9) 查看 yum 源 里 的 安装 包 。 


[root@centos7 ~ ]# Yum list 


telnet.x86 64 1:0.17- 60.e17 c7-media 这 些 
# 文 件 的 库 名 可 以 看 到 是 本 地 yum 源 的 库 名 

telnet- server.x86 64 1:0.17- 60.e17 c7-media 
testng.noarch 6.8.7-3.e17 c7-media 
testng- javadoc.noarch 6.8.7-3.el7 c7-media 
tex- fonts- hebrew.noarch 0.1-21.el7 c7-media 
tex- preview.noarch 11.87- 4.el7 c7-media 
texi2html .noarch 1.82- 10.e17 c7-media 
texinfo.x86 64 5.1- 4.el7 c7-media 
texinfo- tex.x86 64 5.1-4.el7 c7-media 
texlive.x86 64 2:2012- 38.20130427_ r30134.el7 c7-media 
texlive- adjustbox.noarch 2:svn26555.0- 38.el7 c7-media 
texlive- adjustbox- doc.noarch 2:svn26555.0- 38.el7 c7-media 
texlive- ae.noarch 2:svn15878.1.4- 38.el17 c7-media 
texlive- ae- doc.noarch 2:svn15878.1.4- 38.e17 c7-media 


-38.el7 c7-media 


texlive- algorithms.noarch 2:svn15878.0. 


通过 上 面 的 操作 步骤 ,已 经 可 以 使 用 本 地 yum 源 了 。 有 需要 进行 安装 的 软件 包 就 可 
以 直接 运行 yum install xxx 进行 安装 了 。 


2.3.2 利用 yum 进行 查询 安装、 升级 和 移 除 功能 
1. 查询 


yum [list|info|search|provides|whatprovides] 参数 


利用 yum 来 查询 原版 distribution 所 提供 的 软件 ,或 者 已 知 某 软件 的 名 称 ,知道 软件 
的 功能 ,可 以 使 用 yum 相关 的 参数 。 


[root@www ~ ]# yum [option] [查询 工作 项 目 ] [相关 参数 ] 


第 2 章 文件 系统 及 动态 磁盘 管理 3 


选项 与 参数 。 

[option] 主 要 的 选项 有 如 下 两 个 。 

-y: 当 yum 等 待 用 户 输入 时 ,这 个 选项 可 以 自动 提供 yes 的 响应 ; 

一 installroot 二 /some/path: 将 该 软件 安装 在 /some/path 而 不 使 用 默认 路 径 。 
[查询 工作 项 目 ][ 相 关 参 数 ], 这 方面 的 参数 有 如 下 4 个 。 

search: 搜寻 某 个 软件 名 称 或 者 是 描述 (description) 的 重要 关键 字 ; 

list: 列 出 目前 yum 所 管理 的 所 有 的 软件 名 称 和 版 本 ; 

info: 同上 ,不 过 有 点 类 似 rpm -qai 的 执行 结 

provides: 从 文件 去 搜寻 软件 ,功能 类 似 rpm -qf。 

【实例 2-1】 搜寻 磁盘 阵列 (raid) 相 关 的 软件 。 


[root@www ~ ]# yum search raid 


mdadm.i386 : mdadm controls Linux md devices (software RAID arrays) 


lvm2.i386 : Userland logical volume management tools 


# 冒 号 左边 的 是 软件 名 称 ,右边 的 则 是 在 RPM 内 的 name 设 定 (软件 名 )。 
【实例 2-2】 找 出 mdadm 这 个 软件 的 功能 。 


[root@www ~ ]# yum info mdadm 
Installed Packages <== 说 明 已 安装 该 软件 


Name : mdadm <== 软 件 的 名 称 

Arch : i386 <== 软 件 的 编译 架构 
Version: 2.6.4 <== 软 件 的 版 本 
Release: 1.e15 <== 释 出 的 版 本 

Size : 1.7M <== 此 软件 的 文件 总 容量 


Repo : installed <== 容 器 回报 说 已 安装 的 
【实例 2-3】〗 列 出 yum 服务 器 上 面 提供 的 所 有 软件 名 称 。 


[root@www ~ ]# Yum list 
Installed Packages <== 已 安装 软件 


Deployment Guide- en- US.noarch 5.2- 9.el5.centos installed 
Deployment Guide- zh- CN.noarch 5.2- 9.el5.centos installed 


Deployment Guide- zh- TW.noarch 5.2- 9.el5.centos installed 


Available Packages <== 还 可 以 安装 的 其 他 软件 
Cluster Administration-as- IN.noarch 5.2-1.el5.centos base 
Cluster Administration- bn- IN.noarch 5.2-1.el5.centos base 


【实例 2-4】 列 出 服务 器 上 可 供 本 机 进行 升级 的 软件 。 


[rootewww ~ ]# Yum list updates 
Updated Packages 
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Deployment Guide- en- US.noarch 5.2-11l.el5.centos base 
Deployment Guide- zh- CN.noarch 5.2-1l.el5.centos base 
Deployment Guide- zh- TW.noarch 5.2-1l.el5.centos base 


【实例 2-5】 列 出 提供 passwd 文件 的 软件 。 


[root@www ~ ]# yum provides passwd 
passwd.i386 : The passwd utility for setting/changing passwords using PAM 
passwd.i386 : The passwd utility for setting/changing passwords using PAM 


【实例 2-6】 利用 yum 的 功能 , 找 出 以 pam 开头 的 软件 名 称 和 其 中 尚未 安装 的 
软件 。 


[root@www ~ ]# Yum list pam* 

Installed Packages 

pam.i386 0.99.6.2- 3.27.el5 installed 
Pam ccreds.i386 3-5 installed 
Pam krb5.i386 2.2.14-1 installed 
Pam passwdqc.i386 1.0.2- 1.2.2 installed 

Pam pkcsl1.i386 0.5.3- 23 installed 

Pam smb.i386 1.1.7-7.2.1 installed 

Available Packages 

pam.i386 0.99.6.2- 4.el15 base 

Pam- devel .i386 0.99.6.2- 4.el15 base 
Pam krb5.i386 2.2.14- 10 base 


如 上 所 示 ,可 以 升级 的 软件 有 pam 和 pam_krb5 ,没有 安装 的 软件 是 pam-devel。 


2. 安装 和 升级 


yum [installlupdate] 软件 
[root@www ~ ]# yum [option] [查询 工作 项 目 ] [相关 参数 ] 


选项 与 参数 如 下 。 

install: 后 面 接 要 安装 的 软件 名 称 。 

update: 后 面 接 要 升级 的 软件 名 称 , 若 要 整个 系统 都 升级 ,就 直接 update 即 可 。 
【实例 2-7】 安装 前 一 个 练习 中 未 安装 的 软件 pam-devel。 


[root@www ~ ]# Yum install pam- devel 

Setting up Install Process 

Parsing package install arguments 

Resolving Dependencies <== 先 检查 软件 的 属性 相依 问题 

--> Running transaction check 

-一 -> Package pam- devel.i386 0:0.99.6.2- 4.e15 set to be updated 

--> Processing Dependency: pam =0.99.6.2- 4.e15 for package: pam- devel 
--> Running transaction check 

---> Package pam.i386 0:0.99.6.2- 4.e15 set to be updated 
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filelists .xml.gz 100% | 一 一 |1.6MB 00:05 
filelists.xml.gz 100% | 一 一 | 138 kB 00:00 
-> Finished Dependency Resolution 

Dependencies Resolved 


Package Arch Version Repository Size 
Installing: 

pam- devel i386 0.99.6.2- 4.el15 base 186k 
Updating: 

Pam i386 0.99.6.2-4.el5 base 965k 


Transaction Summary 


Install 1 Package (s) < 一 结果 发 现 要 安装 此 软件 需要 升级 另 一 个 依赖 的 软件 


Update 1 Package (s) 

Remove 0 Package (5s) 

Total download size: 1.1 M 

Is this ok [Y/N] : y < 一 确定 要 安装 

Downloading Packages: <=- 先 下 载 

(1/2): pam- 0.99.6.2- 4.e15 100% | 一 一 一 一 一 一 一 | 965 kB 00:05 
(2/2) : pam- devel-0.99.6.2 100% | | 186 kB 00:01 
Running rpm check debug 


Running Transaction Test 
Finished Transaction Test 
Transaction Test Succeeded 
Running Transaction < 一 开始 安装 


Updating : pam 非 非 提 提 提 并 提 井 并 并 并 [/3] 
Installing: pam- devel 非 间 提 提 提 并 提 # 并 并 [2/3] 
Cleanup : pam 提 提 拓 提 提 非 提 ### [3/ 3] 


Installed: pam- devel .i386 0:0.99.6.2- 4.e15 
Updated: pam.i386 0:0.99.6.2- 4.e15 
Complete! 


通过 该 功能 ,不 必 知 道 软件 所 在 的 位 置 ,不 必 手 动 下 载 软件 。 
3. 移 除 


yum [remove] 软件 
将 上 面 安装 软件 移 除 的 方法 如 下 。 


[root@www ~ ]# Yum remove pam- devel 
Setting up Remove Process 

Resolving Dependencies <== 先 解决 属性 相互 依赖 问题 

--> Running transaction check 

---> Package pam- devel.i386 0:0.99.6.2- 4.e15 set to be erased 
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--> Finished Dependency Resolution 
Dependencies Resolved 


Package Arch Version Repository Size 
Removing: 
pam-devel i386 0.99.6.2-4.el5 installed 495k 


Transaction Summary 


Install 0 Package (s) : 

Update 0 Package (s) 

Remove 1 Package(s) 《<== 无 属性 依赖 问题 ,单纯 移 除 一 个 软件 
Is this ok [y/N]:y 

Downloading Packages: 

Running rpm check debug 

Running Transaction Test 

Finished Transaction Test 

Transaction Test Succeeded 

Running Transaction 

Erasing : pam- devel 提 提 提 提 提 提 提 提 提 提 反 提 提 提 提 提 提 提 提 提 提 提 提 提 并 [1/ 1] 
Removed: pam- devel .i386 0:0.99.6.2- 4.e15 

Complete! 


2.3.3 yum 的 软件 群 组 功能 


通过 yum 在 线 安 装 一 个 软件 是 非常 简单 的 ,但 是 ,如 果 要 安装 的 是 一 个 大 型 项 目 , 例 
如 我 们 使 用 预 设 安装 的 方式 安装 了 测试 机 ,这 台 主 机 只 有 GNOME 这 个 窗口 管理 员 ,如 
果 想 要 安装 KDE, 不 用 重新 安装 ,通过 yum 的 软件 群 组 功能 即 可 。 命 令 如 下 。 


[rootewww ~ ]# yum [ 群 组 功能 ] [软件 群 组 ] 


选项 与 参数 如 下 。 

grouplist: 列 出 所 有 可 使 用 的 套件 组 ,例如 Development Tools; 
groupinfo: 后 面 接 group_name, 则 可 了 解 该 group 内 含 的 所 有 套件 名 ; 
groupinstall: 可 以 安装 一 整 组 的 套件 群 组 ; 

groupremove: 移 除 某 个 套件 群 组 。 

【实例 2-8】 查阅 当前 容器 与 本 机 上 面 的 可 用 与 安装 过 的 软件 群 组 有 哪些 ? 


[root@www ~ ]# yum grouplist 

Installed Groups: 
Office/Productivity 
Editors 
System Tools 

Available Groups: 
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Tomboy 
Cluster Storage 
Engineering and Scientific 
系统 上 的 软件 大 多 是 以 群 组 的 方式 一 次 性 安装 的 ,全 新 安装 CentOS 时 ,是 可 以 选择 
所 需要 的 软件 的 ,软件 是 通过 用 GNOME/KDE/X Window 等 之 类 的 名 称 存 在 的 ,这 就 是 
软件 群 组 ,执行 上 述 的 指令 后 ,在 Available Groups 底下 应 该 会 看 到 一 个 XFCE-4. 4 的 软 
件 群 组 ,命令 如 下 。 


[root@www ~ ]# Yum groupinfo XFCE- 4.4 

Setting up Group Process 

Group: XFCE- 4.4 

Description: This group contains the XFCE desktop environment. 
Mandatory Packages: 

xfce4- session 

Default Packages: 

xfce4- websearch- plugin 

Optional Packages: 

xfce-mcs-manager- devel 


xfce4- panel- devel 


这 就 是 一 个 桌面 环境 (desktop environment) ,也 就 是 一 个 窗口 管理 员 ,下面 列 出 了 软 
件 名 称 。 直 接 安装 命令 如 下 : 


[root@www ~ ]# Yum groupinstall XFCE- 4.4 
2.3.4 ”全 系统 自动 升级 


升级 可 以 手动 选择 ,也 可 以 让 系统 自动 升级 ,使 系统 随时 保持 最 新 的 状态 ,通过 yum 
-y update 可 以 自动 升级 ,-y 表示 可 以 自动 回答 yes 来 开始 下 载 并 安装 ,然后 再 通过 
crontab 的 功能 来 处 理 即 可 。 假 设 每 天 在 北京 时 间 3:00am 网 络 带宽 比较 轻松 的 时 候 进 
行 升级 ,可 以 这 样 做 。 


[root@www ~ ]# vim /etc/crontab 


0 3# # # root /usr/bin/yum -Y update 


2.4 存储 基础 


本 节 简 要 介绍 了 存储 领域 的 若干 重要 术语 。 
1. DA(Disk Array) 


磁盘 阵列 ,简称 盘 阵 ,是 把 多 块 独立 的 硬盘 组 合成 一 个 硬盘 组 ,这 个 硬盘 组 和 单个 硬 
盘 一 样 , 可 以 进行 分 区 、 格 式 化 等 操作 。 但 是 硬盘 组 相对 于 单个 硬盘 来 说 , 它 的 存储 性 能 
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会 好 很 多 ,而 且 还 可 以 提供 数据 备份 ,以 保障 数据 的 安全 性 。 
2. LD(Logical Disk) 


逻辑 磁盘 又 称 罗 辑 硬盘 ,是 将 PC 中 真实 存在 的 硬盘 (物理 硬盘 ) 划 分 为 若干 个 逻辑 
硬盘 。 逮 辑 硬 盘 并 不 是 真实 存在 的 , 它 是 创建 分 区 之 后 代表 各 个 分 区 的 逻辑 盘 符 。 


3. RAID (Redundant Array of Independent/InexpensiveDisks) 


独立 磁盘 元 余 阵 列 , 是 一 种 将 多 块 独立 的 硬盘 (物理 硬盘 ) 按 不 同 的 组 合 方式 形成 一 
个 硬盘 组 (逻辑 硬盘 ) ,从 而 提供 比 单 块 硬盘 更 大 的 存储 容量 、 更 高 的 可 靠 性 和 更 快 的 读 写 
性 能 等 。 这 个 概念 最 早 由 加 州 大 学 伯克利 分 校 的 几 名 教授 于 1987 年 提出 。 早 期 主要 通 
过 RAID 控制 器 等 硬件 来 实现 RAID 磁盘 阵列 ,后 来 出 现 了 基于 软件 实现 的 RAID, 比 如 
mdadm 等 。 按 照 磁盘 阵列 的 不 同 组 合 方式 ,可 以 将 RAID 分 为 不 同 级 别 ,包括 RAID 0 
到 RAID 6 等 7 个 基本 级 别 ,以 及 RAID 0 十 1 和 RAID 10 等 扩展 级 别 。 不 同 RAID 级 别 
代表 着 不 同 的 存储 性 能 、 数 据 安全 性 和 存储 成 本 等 。 下 面 简单 介绍 常用 的 几 种 RAID 
级 别 。 

(1) RAID 0。 简 单 地 说 ,RAID 0 主要 通过 将 多 块 硬盘 串联 起 来 ,从 而 形成 一 个 更 大 
容量 的 多 辑 硬 盘 。RAID 0 通过 一 条 带 化 (striping) 将 数据 分 成 不 同 的 数据 块 , 并 依次 将 
这 些 数 据 块 写 到 不 同 的 硬盘 上 。 因 为 数据 分 布 在 不 同 的 硬盘 上 ,所 以 数据 吞吐 量 得 到 大 
大 提升 。 但 是 ,很 容易 看 出 RAID 0 没有 任何 数据 元 余 , 因 此 其 可 靠 性 不 高 。 

(2) RAID 1。 如 果 说 RAID 0 是 RAID 中 一 种 只 注重 存储 容量 而 没有 任何 容错 的 极 
端 形式 ,那么 RAID 1 则 是 有 充分 容错 而 不 关心 存储 利用 率 的 另 一 种 极端 表现 。RAID 1 
通过 镜像 (mirroring) ,将 每 一 份 数据 都 同时 写 到 多 块 硬盘 (一 般 是 两 块 ) 上 去 ,从 而 实现 
了 数据 的 完全 备份 。 因 此 ,RAID 1 支持 * 热 替换 ”, 即 在 不 断 电 的 情况 下 对 故障 磁盘 进行 
更 换 。 一 般 情况 下 ,RAID 1 控制 器 在 读 取 数 据 时 支持 负载 平衡 ,允许 数据 从 不 同 磁盘 上 
同时 读 取 ,从 而 提高 数据 的 读 取 速 度 。 但 是 ,RAID 1 写 数据 的 性 能 没有 改善 。 

(3) RAID 5。 是 一 种 存储 性 能 .数据 安全 和 存储 成 本 兼顾 的 存储 解决 方案 。RAID 5 
可 以 理解 为 是 RAID 0 和 RAID 1 的 折 中 方案 。RAID 5 具有 和 RAID 0 相近 似 的 数据 读 
取 速 度 , 只 是 多 了 一 个 奇偶 校 验 信 息 , 写 人 数据 的 速度 比 对 单个 磁盘 进行 写 人 操作 稍 慢 。 
同时 由 于 多 个 数据 对 应 一 个 奇偶 校 验 信息 ,RAID 5 的 磁盘 空间 利用 率 要 比 RAID 1 高 ， 
存储 成 本 相对 较 低 ,是 目前 运用 较 多 的 一 种 解决 方案 。 


4. SCSI(Small Computer System Interface) 


小 型 计算 机 系统 接口 ,是 一 种 智能 的 通用 接口 标准 ,定义 了 一 系列 用 于 连接 计算 机 和 
各 种 外 部 设备 的 命令 .协议 以 及 接口 规范 等 ,常用 于 硬盘 和 磁带 等 设备 。 

SCSI initiator 和 target: 在 一 个 SCSI 会 话 (session) 中 ,负责 发 起 会 话 和 发 送 SCSI 
命令 的 一 端 被 称 作 initiator。 而 另 一 端 主要 负责 接收 、 处 理 各 种 SCSI 命令 ,并 负责 数据 
的 传输 ,被 称 作 target。 简 单 地 讲 , 可 以 分 别 将 initiator 和 target 类 比 于 C/S 架构 中 的 客 
户 端 (client) 和 服务 端 (server)。 一 般 情况 下 ,用 户 计算 机 或 服务 器 扮演 initiator 的 角 
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色 ,而 存储 设备 承担 了 target 的 角色 。 

SCSI ID 和 LUN: 依照 不 同 版 本 的 SCSI 标准 ,一 个 SCSI 总 线 最 多 可 以 连接 8 个 或 
16 个 SCSI 设备 。 实 际 情 况 中 ,在 总 线 的 末端 一 般 要 安装 一 个 SCSI 终结 器 
(terminator) ,所 以 最 多 可 用 的 SCSI 设备 为 7 个 或 15 个 。 每 个 连接 在 SCSI 总 线 上 的 设 
备 都 有 一 个 唯一 的 ID 号。 鉴于 一 个 SCSI 总 线 上 设备 数量 的 限制 ,一 般 SCSI 存储 设备 
都 会 由 若干 个 子 设备 组 成 ,比如 RAID 磁盘 阵列 、 磁 带 库 等 。 为 了 标识 这 些 子 设备 ,SCSI 
标准 引入 了 LUN 的 概念 , 即 罗 辑 单元 号 (LogicalUnit Number) 。 所 以 ,一 个 SCSI 会 话 
中 ,为 了 标识 一 个 SCSI target, 需 要 同时 指明 SCSI 控制 器 ID、SCSI ID 和 LUN。 


5. FC(Fibre Channel) 


光纤 信道 ,是 一 种 用 光纤 作为 媒质 的 光 传输 通道 ,是 一 种 高 速 网 络 技 术 标 准 。 光 纤 信 
道具 有 长 距离 高 速率 、 低 延迟 和 低 错误 率 等 特点 。 


6. NAS(Network-Attached Storage) 


网 络 附属 存储 是 指 连 接 到 计算 机 网 络 的 文件 级 别 计算 机 数据 存储 ,可 以 为 不 同 客 户 
端 提供 数据 存 取 。NAS 系统 是 包含 一 个 或 多 个 硬盘 驱动 器 的 网 络 设备 ,这 些 硬 盘 驱 动 器 
通常 安排 为 逻辑 的 ,元 余 的 存储 容器 或 者 RAID 阵列 。NAS 通常 采用 NFS、SMB/CIFS 
等 网 络 文件 共享 协议 提供 文件 存 取 。 


7. NFS(Network File System) 


网 络 文件 系统 ,是 一 个 最 早 在 1984 年 由 Sun 公司 提出 的 网 络 文件 系统 协议 , 它 允 许 
客户 计算 机 上 的 用 户 按照 类 似 于 存 取 本 地 文件 的 方式 来 存 取 位 于 网 络 上 的 文件 。 类 似 于 
其 他 很 多 协议 , NFS 建立 在 开放 网 络 计算 远程 过 程 调用 (Open Network Computing 
Remote Procedure Call ,ONC RPC) 系 统 之 上 。NFS 是 一 个 按照 RFCs 定义 的 公开 标准 ， 
允许 任何 人 实现 。 


8. CIFS(Common Internet File System)/SMB(Server Message Block) 


CIFS 又 被 认为 是 SMB, 是 一 个 应 用 程序 层 的 网 络 协 议 , 这 种 协议 主要 用 于 提供 对 文 
件 、 打 印 机 、 串 口 和 各 种 网 络 节点 之 间 通 信和 的 共享 存 取 。 它 还 提供 了 一 种 认证 的 过 程 内 通 
信 机 制 。 微 软 使 用 CIFS 在 所 有 Windows 上 提供 网 络 功 能 ,UNIX/Linux 也 通过 SMB 使 
用 CIFS,Apple 也 有 一 些 可 以 使 用 CIFS 的 客户 端 和 服务 器 。 因 此 , 它 是 一 个 允许 各 操作 
系统 之 间 相 互 协作 的 协议 。 


2.5 基于 多 路 径 的 块 设备 配置 
普通 的 计算 机 主机 都 是 一 个 硬盘 挂 接 到 一 个 总 线 上 ,这 是 一 对 一 的 关系 。 而 主机 和 


存储 通过 光纤 或 者 以 太 网 进行 连接 时 ,大 多 数 情况 下 都 会 做 链 路 元 余 。 这 样 ,存储 与 服务 
器 间 的 连接 就 不 再 是 唯一 的 路 径 ,这 就 形成 了 多 路 径 存储 策略 。 
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多 路 径 的 主要 功能 就 是 和 存储 设备 一 起 配合 ,实现 如 下 功能 : 

Q@ 故障 的 切换 和 恢复 ; 

@ 1/O 流量 的 负载 均衡 ; 

@ 磁盘 的 虚拟 化 。 

块 设备 的 多 路 径 配 置 要 求 应 用 服务 器 端 至 少 是 双 网 卡 ,磁盘 阵列 端 至 少 有 两 个 活跃 
的 端口 (在 磁盘 阵列 管理 端 ,本 节 默 认 在 System 和 人口 配置 ) 。 


2.5.1 iSCSI 方式 的 多 路 径 存储 


iSCSI, 即 Internet SCSI, 是 IETF 制定 的 一 项 标准 ,用 于 将 SCSI 数据 块 映 射 为 以 太 
网 数据 包 。 从 根本 上 说 , 它 是 一 种 基于 IP Storage 理论 的 新 型 存储 技术 ,该 技术 将 存储 行 
业 广 泛 应 用 的 SCSI 接口 技术 与 IP 网 络 技术 相 结合 ,可 以 在 IP 网 络 上 构建 SAN(Storage 
Area Networking)。 简 单 地 说 ,iSCSI 就 是 在 IP 网 络 上 运行 SCSI 协议 的 一 种 网 络 存 储 
技术 。 

iSCSI 配置 流程 如 图 2-21 所 示 。 


iSCSI 数据 端口 配置 iSCSI 网 络 及 软件 配置 


1 
iSCSI 启动 器 软件 安装 


创建 磁盘 阵列 
1 创建 存储 空间 


创建 逻辑 磁盘 


配置 启动 器 


否 LUN 映 射 


应 用 服务 器 使 用 存储 空间 “| 识别 存储 空间 


图 2-21 iSCSI 配置 流程 图 


配置 步骤 (以 曙光 DS600-G20 磁盘 阵列 为 例 ) 如 下 。 
1. 配置 iSCSI 数据 端口 
应 用 服务 器 与 磁盘 阵列 的 iSCSI 端口 进行 数据 传输 ,需要 根据 应 用 场景 规划 iSCSI 
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网 络 。 首 先 , 在 存储 的 控制 界面 操作 。iSCSI 端口 在 【Device】-~【IO Network 
Management】 中 进行 设置 ,如 图 2-22 所 示 。 


国 io Network Management 


三 
里 aa vew 
BR Topoo 
FT Ce 
Poralip ipAddress Controler iD PortiD TonkD ViANTsg 。 Group status 三 myscaDrve 
0 100101 1 1 WA WA EC ACT) 本 
1 10648240 1 mA WA ECcsl Actvetcn1) 人 
1 3 wa 六 Bs Acwelom') JoneworeManagement 
一 一 一 人 
3 10649238 1 4 Na WA Ecs Actve(C 1) Scs Weneoorert 
4 100500 2 1 MA MWA Escs Advetcn2) 
so0600 2 2 wa na cs! AcwelCmD) TY re Monagernert 
6 100700 2 3 Wa WA cs Actve(C2) 
7 100801 2 4 mA WA ‘scs Advetcn2) 


图 2-22 IO Network Management 中 入 口 界面 


步骤 1: 将 网 线 连接 至 盘 阵 的 iSCSI 端口 (至 少 连接 两 个 端口 ); 
步骤 2: 在 [IO Network Management】 界 面 , 单 击 【Port 标签 页 ,查看 数据 端口 的 “ 链 
路 状态 ”是否 是 Up,Active, 当 前 速度 是 否 为 1000Mbps。 本 例 为 控制 器 1 ,端口 2 和 4, 如 


图 2-23 所 示 。 


国 io Network Management 


Portal®| Pon 国 | Trunk® ping® 
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win = 
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Link Status 。 Jumbo Frame 
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Up, Actve Disabled 
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Down, Active 。 Disabled 
Down, Actve 。 Disabled 
Down, Active 。 Disabled 


Current Speed Assigned Portals 
0 Mbps Portal 0, Portal 8, Portal 16 
1000 Mbps Portal 1, Portal9 

| 加 view | Wsetings 


OMbps Portal 2, Portal 10 
1000 Mbps Portal 3, Portal 11 
| 国 view | 旋 setings 
0 Mbps Portal 4, Portal 12 
0 Mbps Portal 5, Portal 13 
OMbps Portal 6, Portal 14 
0 Mbps Portal7, Portal 15 


图 2-23 Network Management 中 端口 界面 


步骤 3: 单 击 【Portal] 标 签 页 ,可 以 看 到 控制 器 1, 端口 2 的 入 口 IP 为 10. 6. 49. 240， 
控制 器 1 端口 4 的 入 口 IP 为 10.6.49.238, 如 图 2-24 所 示 。 

步骤 4: 配置 应 用 服务 器 的 相应 网 口 IP 地 址 ,使 其 可 以 ping 通 刚 设置 的 入 口 IP。 本 
示例 中 双 网 卡 的 应 用 服务 器 IP 地 址 是 10. 6. 49. 242 和 10. 6. 49. 243 。 每 个 网 卡 IP 都 要 
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ee Pon 图 | Tmnk 图 | pno 国 


PortallD IPAddress ControllerID PortID Trunk ID VLAN Tag Group Status 
0 10.0.101 1 1 NA NA SCSI Activetctn 1) 
1 10.6.49240 1 示 NA NA SCs Active(Ctri1) 


| 加 view | 人 Dsetinos | 目 Delete 
2 10.0301 3 NA NA ISCSI Active(Ctn 1) 
3 10.6.49.238 1 要 NA MA ISCSI Active(Ctr! 1) 

| 国 vew | setings | 目 Delete 


4 10.0.500 2 1 NA NA ISCS! Activetctn2) 
5 10.0600 2 2 NA NA SCSI Activetctn 2) 
6 10.0700 2 3 NA NA iSCSI Activetctnl2) 
10.0.80.1 2 4 NA NA ISCSI Activetctn2) 


图 2-24 iSCSI 入 口 了 


ping 通 每 个 端口 ,本 例 中 共 要 ping 4 次 ,并 保证 全 能 ping 通 , 如 图 2-25 所 示 。 


Portal 国 | port® EE ro 
以 凡 


PAddress 10.6.49.242 


Type VO Port 了 
Ping Through Portal 1 图 os4e240 
Number of Package to Png [9 [1-65535] 


图 2-25 ping 功能 
至 此 ,iSCSI 数据 链 路 设置 成 功 。 
2. iSCSI 启动 器 软件 和 多 路 径 软件 安装 


1) Windows 系统 (以 Windows Server 2008 R2 为 例 ) 

在 Windows 应 用 主机 上 依次 单 击 【控制 面板 ->【 添 加 或 删除 程序 】 在 当前 安装 的 程 
序列 表 中 查看 是 否 有 Microsoft iSCSI Initiator 软件 (对 于 Windows Server 2008 及 以 上 
版 本 的 系统 ,默认 安装 该 软件 ) 。 

在 Windows Server 2008 的 [服务 器 管理 3 的 [功能 ] 中 ,添加 多 路 径 1/O 功能 ,下 载 安 
装 并 在 MPIO 中 启用 对 硬件 设备 的 支持 。 

2) Linux 系统 (以 CentOS 6. 6 为 例 ) 

CentOS 6.6 默认 没有 安装 iSCSI 启动 软件 ,所 以 要 进行 手动 安装 。 

安装 initiator: yum -y install iscsi-initiator-utils 


iscsi 服务 设 为 开机 自动 启动 : chkconfig iscsi on 
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iscsid 服务 设 为 开机 自动 启动 : chkconfig iscsid on 

对 于 多 路 径 软 件 , 所 需 安装 包 为 device-mapper-multipath。 
安装 multipath: yum -y install device-mapper-multipath 
启动 multipath 服务 : service multipathd start 

multipath 服务 设 为 开机 自动 启动 : chkconfig multipathd on 


3. 创建 磁盘 阵列 (DA) 


依次 进入 【Storage】>【Disk Array】, 单 击 【Create Disk Array】 按 钮 。 设 置 磁盘 阵列 
的 别名 , 单 击 要 加 入 DA 的 磁盘 (斜纹 阴影 的 硬盘 表明 已 经 配置 RAID, 无 法 选择 ), 如 
图 2-26 所 示 。 


图 2-26 创建 磁盘 阵列 


创建 的 DA 默认 启用 介质 巡查 ,可 以 选择 是 否 启用 预测 数据 迁移 (PDM)、 电 源 管 理 
等 高 级 功能 。 


4. 创建 逻辑 磁盘 (LD) 


进入 【Logical Drive】 界 面 , 单 击 [Create Logical Drive】 按 钮 , 选择 之 前 创建 的 DA, 单 
击 【Next] 按 钮 ,弹出 的 对 话 框 中 ,设置 逻辑 磁盘 的 参数 ,包括 别名 、RAID 级 别 、 容 量 、 磁 
条 大 小 、 扇 区 \ 读 策略 、 写 策略 等 , 单 击 【 添 加 ] 按 钮 ,LD 添加 至 右 侧 的 列表 中 ,如 图 2-27 
所 示 。 
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图 create Logical Drive 同 国 
As EU | 日 New Logical Drives 
MADLewl i# RADLevel Capacty 
es Em 0 2 
Strpe 
Sector Baeyes 
Read Polcy 
Wrte Poicy [wrteBack 国 
Preferred Controler D 
Perfect Rebuild 同 
Co 
人 Ce 


图 2-27 创建 逻辑 磁盘 


5. 配置 启动 器 


应 用 服务 器 的 业务 网 口 与 盘 阵 的 iSCSI 端口 通过 网 络 设 备 进 行 物 理 连接 后 ,为 了 建 
立 两 者 的 iSCSI 连接 ,需要 在 应 用 服务 器 上 配置 iSCSI 启动 器 ,并 且 将 启动 器 添加 到 盘 
阵 , 进 而 进行 LUN 映射 ,实现 数据 通信 。 

1) Windows 方式 

步骤 1: 运行 iSCSI 发 起 程序 ,在 其 中 添加 目标 门户 ,如 图 2-28 所 示 。 


Microsoft iSCSI Ini... 10.6.49.242 
10.6.49.238 Microsoft iSCSI Ini.,. 10.6.49.243 


图 2-28 iSCSI 发 起 程序 


步骤 2: 在 【目标 ] 标 签 页 ,查看 到 状态 为 “不 活动 ”的 iSCSI 链接 , 单 击 【连接 ] 按 钮 。 
注意 : 在 弹出 的 对 话 框 中 色 选 【启用 多 路 径 ] 复 选 框 , 单 击 【高 级 按钮 ,连接 方式 指定 发 起 
程序 IP 和 目标 门户 IP, 即 指定 第 一 条 iSCSI 链 路 对 应 的 IP, 这 里 首先 选择 10. 6. 49. 242 
和 10. 6. 49. 240, 如 图 2-29 所 示 。 

步骤 3: 第 一 条 iSCSI 链 路 状态 变 为 “已 连接 ”, 再 次 单 击 【 连 接 ] 按 钮 , 勾 选 【启用 多 路 
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Pen 08508 eon sueon lis tet 
订 将 此 连接 系 加 到 | 收藏 目标 列表 。 

该 操作 会 在 每 次 计算 机 重新 启动 时 
订 启用 多 路 径 E) 


高 级 内 


图 2-29 设置 第 一 个 IP 


径 】 复 选 框 , 单 击 [高 级 按钮 ,弹出 的 对 话 框 中 选择 第 二 条 iSCSI 连接 的 发 起 程序 IP 和 目 
标 门 户 IP, 此 处 为 10. 6. 49. 243 和 10. 6. 49. 238 ,如 图 2-30 所 示 。 


iSCSI 发 起 程序 属性 
案 规 | Ipsee | 


目标 名 : -连接 方式 

lian- 1995-06, com, sugon: alias. te a 0 - Et iiSCST 了 

I ee | 

es EST 
该 操作 会 在 每 次 计算 机 重新 启动 


目标 门户 IF ID) 


「CRC/ 校 验 和 | 
厂 数据 摘要 0) 厂 标题 摘要 00 


厂 启用 CHAP 登录 字 ) 


CHAP 登录 人 


厂 启用 多 路 径 E) 


图 2-30 设置 第 二 个 IP 


此 时 , 单 击 [属性] 按钮 ,可 以 看 到 当前 会 话 为 两 条 ,如 图 2-31 所 示 。 


标识 符 
口 ffff£98037abbO18-4000013700000001 
口 sfeeesa03Taby018-4000013700000002 


图 2-31 查看 属性 中 会 话 记 录 


步骤 4: 登录 磁盘 阵列 Web 管理 界面 ,依次 进入 【System】 一 【Device] 一 【iSCSI 
Management】 ,选择 【Logged In Device] 标 签 页 ,查看 已 登录 设备 , 单 击 右 上 角 的 【Add to 
Initiator List] 按 钮 , 勾 选 “启动 器 名 ”前 的 复 选 框 , 单 击 【Add to Initiator List] 按 钮 , 复 选 
框 为 灰色 ,表明 添加 成 功 ,如 图 2-32 所 示 。 

步骤 5: 依次 进入 【Storage] 一 【LUN Mapping & Masking】, 勾 选 【Enable LUN 
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层 iscsl Management 对 


Target®) session®) isnS®) chapf ET SFP 


TargetiD PortaliD initiatorlD Initiator Name 
i iqn 1991-05 .com microsoft sever1 
2 iqn 1991-05.com microsoft sever 


图 2-32 查看 已 登录 的 设备 


Masking] 复 选 框 ,提示 更 改 成 功 。 单 击 右 上 角 的 [LUN Mapping】 按 钮 ,在 弹出 的 配置 界 
面 中 选择 启动 器 ,本 示例 中 首先 选择 Windows 主机 的 启动 器 , 单 击 【[Next] 按 钮 ,然后 将 
LD 映射 给 Windows 主机 的 iSCSI 启动 器 ,如 图 2-33 所 示 。 


Ry LUN Mapping & Masking ® 


人 am 
1] 10-00-00-90-fa-b4-a2-7b (LD0,LUNO) (D1,LUNT1) 
2 1000009018b4a273 QOLUNOGOTLLUND 
3 21-00-00-24 任 10-bf-85 (LD2,LUN2) 
4 21-00-00-24 作 10-ba-cd (LD2,LUN2) 
5 A (LD3,LUN3) 


| Wseting | 全 Delete 


图 2-33 将 LD3 映射 给 应 用 服务 器 


步骤 6: 打开 Windows 应 用 服务 器 的 【设备 管理 器 】 拭 磁盘 驱动 器 】, 查 看 是 否 识别 
到 Sugon DS600 G20 Multi-Path Disk Device; 右 击 该 设备 ,选择 [属性 ] 命 令 。 弹 出 的 [ 届 
性 3 对 话 框 中 , 单 击 进 入 MPIO 标签 页 ,可 以 看 到 两 条 链 路 ,如 图 2-34 所 示 。 

接 下 来 ,要 选择 具体 的 MPIO 策略 。 

@ 仅 故 障 转移 (failover only) ,这 是 最 简单 的 一 种 模式 ,一 条 路 径 出 现 问题 了 ,就 会 
切 到 另 一 条 。 它 是 自动 切换 active/standby 模式 。 

@ 协商 会 议 (round robin) ,这 个 模式 就 是 负载 均衡 ,每 条 路 径 都 会 写 1/O, 不 能 浪费 
服务 器 性 能 ,active/active 模式 。 

@ 带子 集 的 协商 会 议 , 比 协商 会 议 更 高 级 一 点 ,主要 是 提高 存储 的 读 写 性 能 和 可 靠 
性 。active/active 模式 。 

@ 最 少 队 列 深度 , 沿 着 当前 未 完成 的 1/O 请 求 最 少 的 路 径 发 送 MO 的 负载 平衡 
策略 。 

@ 加 权 路 径 (weighted path) , 沿 着 当前 处 理 的 数据 块 数 最 少 的 路 径 发 送 1/O 的 负载 
平衡 策略 。 
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Ee 于 
‘Ea I LIGICAL YOLIME SCST Disk Device 
Ea I LOGICAL VOLIME SCST Disk Device 
© Sueon DS800 G20 Hulti-Path Disk Device 


Sugon DS600 620 Bolti-Path Disk Device 属性 
常规 | 第 略 | 卷 。 ”eID | 驱动 程序 | 详细 信息 | 
ET | 


「 扩 述 


TSW 名 称 : 愿 ee 38m 三 详细 信息 中 


该 设备 包 仿 下列 路 径 吕 ) 
wm ] 器 径 扩 态 [可 重 I 
T7030000 待机 
Tro40000 活动 /已 优化 


Fe sh 二 生 四 


坟 叶 i 有 EI0 策略 ， 请 单 击 


到 2-34 ”多 路 径 配 置 


2) Linux 方式 
步骤 1: 使 用 iscsiadm 工具 发 现 目标 节点 


命令 : 


iscsiadm -m discovery -P 10.5.198.7 -七 st 
iscsiadm -m discovery -P 10.5.198.10 -t+ st 


发 现 目标 节 


i 如 图 2-35 所 示 。 


图 2-35 发 现 目标 节点 


步骤 2: 使 用 iscsiadm 工具 建立 两 条 连接 。 


命令 ， 


iscsiadm -mnode -p 10.0.30.1 -1 
iscsiadm -mnode -p 10.0.50.1 -1 

建立 连接 ,如 图 2-36 所 示 。 

步骤 3: 使 用 iscsiadm 工具 查看 当前 连接 的 会 话 (session) 。 


命令 : 


iscsiadm -m session 
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ion 一 "4 
ized character '4' 


default, t 
portal: 10.6.49.2: 
@server ~]# iscsiadm -m 
ging in to [iface: default, 
in to [iface: default, targe' 


查看 当前 连接 会 话 , 如 图 2-37 所 示 。 


[root@server ~]# iscsiadm -m session 
tcp: [3] 10.6.49.238:3260,1 iqn.1995-06.com.sugon:alias.tgt0000.20000001555b6cb9 


(non-flash) 
tcp: [4] 10.6.49.240:3260,1 iqn.1995-06.com.sugon:alias.tgt0000.20000001555b6cb9 
(non-flash) 


图 2-37 查看 连接 会 话 


步骤 4: 在 盘 阵 Web 管理 界面 中 ,添加 Linux 主机 的 启动 器 ,并 将 LD 映射 给 Linux 
主机 的 iSCSI 启动 器 (添加 和 映射 方式 与 Windows 相同 ) ,如 图 2-38 所 示 。 


时 5 LUN Mapping & Masking ™ 

将 weard 

LUN Mapping 
外 Desk aray 
本 Loglcal Drive 
1 aonaoeaabtazm apauunoaoyuuny ,LS 
2 10.00.00.90-a-b4.a27a (LD 0,LUNO) (LD 1,LUNT) 电 spaepme 
3 21-00-00-24-1-10-bf85 (LD2,LUN2) 国 mtator 
4 21-00-00-24--10-ba-cd (LD2,LUN2) Bs LUN Mapping & Masking 
5 iqn. 1991-05.com microsoftserver1 (LD 3, LUN3) 
7 ian 1994-05.comredhat 374d97b8tb = (LD 3, LUN 3) 
旋 seting | 全 Delete 


图 2-38 ”逻辑 磁盘 映射 给 启动 器 


: 配置 multipath. conf 文件 ,具体 步骤 如 下 
DO 将 multipath. conf 文件 拷贝 至 /etc/ 目 录 下 。 


cp /usr/share/doc/device-mapper-multipath- 0.4.9/multipath.conf /etc/ 


@ 修改 /etc/multipath. conf 文件 


人 人 人 
节令 : 


vim /etc/multipath.conf 


如 图 2-39 所 示 进 行 修改 。 
其 中 ,path_grouping_policy 用 以 设置 路 径 元 余 策 略 , failover 表示 故障 转移 策略 ,多 
条 链 路 中 仅 有 一 条 处 于 活动 状态 ,用 于 数据 传输 ,其 余 均 备用 链 路 ;将 该 参数 设置 为 


图 2-39 配置 文件 


mnultibus, 所 有 链 路 均 是 活动 状态 。 根 据 实际 情况 选择 路 径 宛 余 策略 ,一 般 建议 控制 器 内 
部 的 链 路 采用 multibus 策略 ,控制 器 之 间 的 链 路 采用 failover 策略 。 
@ 修改 完成 后 重启 multipathd 服务 


人 A 人 
HY: 


service multipathd restart 

步 又 6: 应 用 服务 器 识别 存储 空间 ,一 般 需 要 重新 启动 应 用 主机 。 若 未 设置 
multipathd 服务 开机 自 启 动 ,主机 重启 后 ,需要 重新 启动 该 服务 

使 用 fdisk -1 查看 识别 到 的 存储 设备 ,如 图 2-40 所 示 


图 2-40 Linux 系统 下 合并 分 区 查看 
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其 中 /dev/mapper/mpathX 是 合并 分 区 ,可 以 对 其 进行 格式 化 、 挂 载 等 操作 。 此 外 ， 


另外 两 个 容量 相同 的 分 区 /dev/sdb、/dev/sdc 是 两 条 链 路 各 自 映 射 的 分 区 ,不 能 对 其 进 
行 挂 载 使 用 。 


NT 


dl 


步骤 7: 使 用 multipath -ll 查看 当前 链 路 的 状态 ,如 图 2-41 所 示 。 


图 2-41 Linux 系统 下 failover 策略 


可 以 看 出 , 当 path_grouping_policy 选择 failover 时 ,两 条 链 路 中 一 条 状态 为 active， 


-条 状态 为 enabled。 


iscsiadm 常用 命令 如 下 。 

Q@ 发 现 目标 节点 (目标 门户 ): 

iscsiadm -m discovery -t st -P iScsI Target IP 
@ 查看 发 现 到 的 目标 节点 : 

iscsiadm -m node 

@ 建立 iSCSI 连接 : 

iscsiadm -m node -P iSCSI Target IP -1 

@ 查看 当前 会 话 : 

iscsiadm -m session 

@ 断 开 iSCSI 连接 : 

iscsiadm -m node -P iSCSI Target IP -- logout 


@ 删除 目标 节点 文件 : 


service iscsi stop # 先 停止 iscsIi 服务 
Im -rf /var/lib/iscsi/nodes/* # 删 除 节点 
rm -rf /var/lib/iscsi/send targets/* # 删 除 目标 端 


device-mapper-multipath 常用 命令 如 下 。 
@ 服务 启 停 : 

service multipathd status|start|stop|restart 
@ 清除 多 路 径 缓 存 : 

multipath -下 


新 加 载 多 路 径 : 


四 


multipath -v3 
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@ 查看 多 路 径 : 
multipath -11 
2.5.2 FC 方式 的 多 路 径 存储 
配置 步骤 (以 曙光 DS600-G20 磁盘 阵列 为 例 ) 如 下 。 
1. FC 链 路 配置 


将 应 用 服务 器 FC HBA 卡 与 盘 阵 FC 端口 相连 ,可 以 是 直 连 或 者 连接 FC 交换 机 , 连 
接 好 后 检查 各 FC 端口 指示 灯 是 否 亮 起 。 


2. 创建 磁盘 阵列 (DA) 

与 iSCSI 配置 方式 相同 。 
3. 创建 逻辑 磁盘 (LD) 

与 iSCSI 配置 方式 相同 。 
4. 配置 启动 器 


不 同 于 iSCSI 连接 ,应 用 服务 器 端 无 须 针 对 FC Initiator 做 相关 的 设置 ,主机 与 盘 阵 
建立 物理 连接 后 , 盘 阵 端 可 以 自动 识别 到 FC HBA 卡 的 WWPN (World Wide Port 
Name) 。 

在 盘 阵 管理 界面 ,依次 进入 [System】- 光 Device]--【FC Management]>【Logged In 
Device] 中 ,查看 识别 的 到 应 用 服务 器 FC HBA 卡 的 WWPN。 勾 选 应 用 服务 器 的 
WWPN ,添加 到 启动 器 中 ,如 图 2-42 所 示 。 


网 Fc Management 则 


Controller ID PortID Index WwWPN 


21-00-00-24-f-10-bf-85 


21-00-00-24-f-10-ba-cd 


2-42 已 添加 完 启动 器 


5. LUN 映射 


存储 分 区 通过 多 条 链 路 映射 给 应 用 服务 器 时 , Windows 主机 、Linux 主机 端 多 路 径 管 
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理 软件 配置 方法 同 iSCSI 多 路 径 设 置 . 此 处 不 再 袭 述 。 

应 用 服务 器 FC HBA 卡 的 每 个 FC 端口 均 对 应 唯一 的 WWPN, 因 此 多 个 FC 端口 与 
盘 阵 建立 连接 后 , 盘 阵 端 将 识别 到 对 应 的 WWPN, 将 同一 存储 分 区 映射 给 多 个 WWPN 
即 可 ,如 图 2-43 所 示 。 


图 5 LuN Mapping & Masking ® 


10-00-00-90-fa-b4-a2-7b 


(LD 0, LUN 0) (LD 1, LUN 1) 


2 10.00.00.304a-b4-a2.7a (LD 0, LUN 0) (LD 1, LUN 1) 
3 21.00.00.24 下 10.bf85 up2.LuN3) 
| seting | YDalete 


4 21-00-00-24 御 10-ba-cd (LD2, LUN2) 
| 六 seting | 全 Delete 


图 2-43 LUN 映射 


2.6 NAS 配置 


NAS 设备 允许 用 户 在 网 络 上 存 取 数据 ,无 须 应 用 服务 器 的 干预 ,这 样 既 可 减 小 CPU 
的 开销 ,也 能 显著 改善 网 络 的 性 能 。 本 节 默 认 在 NAS 入 口 配置 。 

NAS 配置 流程 如 图 2-44 所 示 。 

配置 步骤 (以 曙光 DS600-G20 磁盘 阵列 为 例 ) 如 下 。 


1. NAS 端口 配置 


步骤 1: 在 NAS 端口 插入 网 线 。 

步骤 2: 选择 【Dashboard]-~【Quick Links】 一 【IO Network Management】, 进入 到 
【IO Network Management】 页 面 。 单 击 【Port] 标 签 页 ,查看 NAS 数据 端口 链 路 状态 是 否 
是 Up,Active, 当 前 速度 是 否 是 1000Mbps, 本 例 中 以 控制 器 1 的 端口 4 为 例 , 如 图 2-45 
所 示 。 

步骤 3: 在 [Portal] 标 签 页 中 ,查看 对 应 的 入 口 IP, 如 图 2-46 所 示 。 

步骤 4: 在 【Ping] 标 签 页 中 ,分 别 输入 CIFS 和 NFS 客户 端的 IP, 检 查 是 否 可 以 
ping 通 。 

2. 创建 磁盘 池 (Disk Pool) 


在 【Dashboard] 界 面 左 侧 的 快速 链接 中 选择 【Disk Pool】, 进 入 磁盘 池 配 置 界面 , 单 击 
【Create] 按 钮 创建 。 选 择 空闲 磁盘 .设置 磁盘 池 的 名 称 `RAID 级 别 、 磁 条 大 小 .所 属 控制 
器 ,如 图 2-47 和 图 2-48 所 示 。 
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NAS 端 口 配置 


创建 磁盘 池 
f 


创建 共享 磁盘 


客户 端 访问 


NAS 网 络 配置 


NAS 协 议 访问 


图 2-44 NAS 配置 流程 图 
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10.6.49237 


100302 


2-46 ”查看 入 口 IP 
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Media Type Hard Disk Drive 


(Head Unit) 
DS600_3U_16BAY_D 


IDs of Physical Drves Selected 区 2428 | 


图 2-47 创建 磁盘 池 


图 create 


Disk Pool 
RAID Level 
[ 512KB 可 


@ contoller1 © Controller2 


ee Chm 


图 2-48 设置 磁盘 池 


3. 创建 共享 磁盘 (Share Disk) 


共享 磁盘 建立 在 磁盘 池 基础 之 上 ,是 对 外 提供 CIFS、NFS、FTP 等 广义 NAS 服务 
的 共享 目录 。 在 【Dashboard] 界 面 左 侧 的 快速 链接 中 单 击 【Share Disk】, 进 入 到 共享 磁盘 
配置 界面 , 单 击 【Create Share Disk】。 选 择 磁 盘 池 ,设置 共享 磁盘 名 称 、 容 量 。 默 认 权 限 
是 读 写 ,支持 协议 包括 SMB/CIFS、NFS、AFP、FTP 等 ,如 图 2-49 所 示 。 

NFS 客户 端 认证 方式 是 IP 地 址 ,此 处 先 设置 NFS 客户 端 认 证 方式 。 

单 击 新 建 的 共享 磁盘 ,在 展开 的 隐藏 子 菜单 中 ,选择 [Share Setting】 选 项 , 保证 NFS 
协议 启用 ,查看 NFS 安装 点 名 称 ( 客 户 端 需 要 挂 载 的 共享 目录 ), 在 [Allow IP remaining 
amount】] 中 输入 NFS 客户 端的 IP 地 址 , 单 击 【Add] 按 钮 ,如 图 2-50 所 示 。 在 【Allow IP 
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create share Disk 
Disk Pool [poo 辐 
Share Disk Bharelt 
Capacity 区 Use Nl Available Capacity B TB 辐 min:10GB MaxeTB 
Default Permission ReadWrite © ReadOnly © DenyAccess 
Protocol 区 swBlciFs 区 NFS 区 AFP 区 FTP 区 webDAv 
Time Machine Support C 
Write Cache Policy FForce Synchronization 
Enable Encryption 口 

Ce 


图 2-49 创建 共享 磁盘 


remaining amount】 中 可 以 输入 单个 客户 端 IP, 也 可 以 使 用 通配符 * 表示 同一 局 域 网 内 
IP, 如 示例 10. 6. 49. * ,表示 10. 6. 49. 0 一 10. 6. 49. 255。 这 里 若 输入 * , 则 表示 任意 合 
法 人。 


副 share setting @ 
Share Disk Name sharel 22 
Protocol 图 SMB/CIFS 图 AFP 国 FTF 国 webDAv 
Time Machine Support 日 
Write Cache Policy 上 国 Force Synchronization 
Default Permission @Read-Write© Read-OnlyO Deny-Access 
NFS 国 NFS 
NFS Mount Path /FS/sharel 
Squash Mode 国 Al Squash ONo Root Squash @Root Squash 
Allow IP remaining amount 256 
ReadwnieORead Ony 
No. IPAddress | Permission 
AlowIP 1 10.649* RW 四 
于 105.198* RW 
em Cem 


图 2-50 设置 共享 磁盘 


4. 设置 用 户 


DS600-G20 的 NAS 用 户 支持 本 地 用 户 和 域 用 户 ,这 里 仅 介 绍 本 地 用 户 的 创建 。 
DS600-G20 的 默认 CIFS 用 户 名 是 adminitrator, 密码 是 password, 可 以 使 用 默认 用 户 访 
问 。administrator 属于 超级 用 户 , 权 限 和 配额 均 无 法 修改 ,建议 创建 普通 用 户 组 及 普通 
用 户 。 
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步骤 1: 设置 组 。 

进入 Account]>【NAS Group 界面 ,左上 角 的 NAS 组 类 型 选择 Local Group , 单 击 
右上 角 的 [New Group Create】 按 钮 , 输入 组 名 称 , 由 于 尚 没有 用 户 ,直接 单 击 【Apply] 按 
钮 ,如 图 2-51 所 示 。 


近 New Group Create 


Step1: Please input new group name to following field. 
Group Name roup1 


Step2: Please select group member from NAS user st 


[7 Users 


Total Count0 Page Capaair| 10 CurrentPage: ‘0 


seacr[ | 


Cm Cem 


图 2-51 设置 组 


步骤 2: 设置 用 户 。 
进入 Account] 一 【NAS User】 界 面 ，NAS 用 户 类 型 选择 Local User, 单 击 【Add 
User] 按 钮 ,输入 用 户 名 和 密码 ,如 图 2-52 所 示 。 


时 Add User 网 
UserName" ken 
Password eeeee。 Tepasswordshouldonly contain 6-16 characters. 
Retype Password* [rrrrr 
Emall ee 
Display Name | 
Department | 
Telephone 广 ”vv | 
Ce 


图 2-52 设置 用 户 


步骤 3: 设置 用 户 userl 隶属 于 用 户 组 groupl。 
单 击 用 户 组 groupl ,在 展开 的 隐藏 子 菜单 中 选择 【Settings】 选 项 , 勾 选 用 户 userl 前 
的 复 选 框 , 单 击 【Apply】 按 钮 ,如 图 2-53 所 示 。 


5. 设置 配额 


配额 限制 了 用 户 可 以 使 用 共享 磁盘 的 容量 ,如 果 不 设置 ,用户 允许 使 用 的 容量 等 同 于 
共享 磁盘 的 容量 。 
进入 [File System]-【Quota】 界 面 .选择 共享 磁盘 ,类 型 选择 Local User, 单 击 
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加 总 


user1 


Totalcount1 ”Paoecapaatr[10 国 。 curentPage:fi 11 


seach[ | 
人 Ce 
图 2-53 将 指定 用 户 添加 到 指定 组 


【Quota Setting】 按 钮 ，Quota Size(GB) 为 0, 表 明 不 设置 配额 ,选中 用 户 名 ,输入 配额 值 ， 
单 击 【Apply] 按 钮 ,完成 配置 ,如 图 2-54 所 示 。 


人 Quota 
son own [ae We lee 
到 setting 网 
Share Disk | share 可 Type:|Local User 司 
UserName Quota Size (GB) Used Size (GB) 
区 user! Bo 0 
Total Count 1 Page Capadtr| 10 CurentPage P11 
Search: 
图 2-54 设置 配额 
6. 设置 权限 


在 不 设置 用 户 组 ,用户 权限 的 情况 下 ,组 合 权限 等 同 于 共享 磁盘 的 默认 权限 。 

进入 Account】]>【File & Permission Management】 界 面 , 显 示 所 有 的 共享 磁盘 , 选 
中 待 设置 权限 的 共享 磁盘 , 右 击 显示 Mode 和 Permission, 单 击 Permission, 进 入 权限 配 
置 界面 ,选择 Local User, 单 击 右 侧 的 【Setting】 按 钮 ,弹出 如 图 2-55 所 示 的 界面 , 勾 选用 
户 名 userl 前 的 复 选 框 ,设置 用 户 权 限 。 同 样 的 步骤 设置 用 户 组 group1l 的 权限 。 


7. 客户 端 访问 


(1) CIFS 客户 端 。 
步骤 1: 在 Windows 客户 端 , 右 击 “计算 机 ”图 标 .选择 “映射 网 络 驱 动 器 ”选项 ; 
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% Sshare Permission Setting x 
shaet 
Local User 司 
Current i count-1 Available: 和 
| usert G c c 
Total Count 1 Page Capacity: [10 司 CurentPage: [ 1/1 [最 区 归 六 六 网 | 
Search:[ |] 


Co Com 


图 2-55 设置 权限 


步骤 2: 驱动 器 为 挂 载 到 本 地 的 盘 符 , “文件 夹 ” 处 输入 \\NAS 入 口 IP\ 共 享 磁盘 名 
称 ,此 处 为 \\10. 6. 49. 236\sharel, 如 图 2-56 所 示 。 


丰 。 绝 映 时 网 络 驱 动 器 
要 映射 的 网 络 文件 夹 ; 


驱动 器 (D)， 区 bd 


文件 夹 (0): |\\10.6.49.236\share1 wy 浏览 (B) 


图 2-56 CIFS 客户 端 访问 
步骤 3: 输入 用 户 名 和 密码 ,认证 成 功 后 , 即 可 进入 共享 目录 ,如 图 2-57 所 示 。 


> 文件 夹 (6) 
》 设 备 和 驱动 器 (8) 


六 网络 位 置 (1) 
share1 \\10.6.49.236) (Z3) 


Wr” 7.99 TB 可用, 共 7.99 TB 


图 2-57 进入 共享 目录 
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a 
Pe] 


(2) NFS 客户 

设置 NFS 共享 磁盘 时 ,可 以 查看 到 NFS 安装 点 目录 为 /FS/share(share 是 设置 的 共 
享 磁盘 名 称 ) 。 

使 用 mount 命令 挂 载 到 /mnt 目录 : mount -t nfs 10. 6. 49. 236:/FS/sharel /mnt， 
如 图 2-58 所 示 。 


端 。 


图 2-58 NFS 客户 端 访问 


至 此 ,CIFS、NFS 客户 端 可 以 对 共享 目录 进 
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域名 系统 (Domain Name System,DNS) 是 Internet 基础 架构 服务 ,在 Internet 上 当 
一 台 主 机 要 访问 另外 一 台 主 机 时 ,必须 首先 获知 其 地 址 ,TCP/IP 中 的 IP 地 址 是 由 4 段 
以 .分 开 的 数字 组 成 , 记 起 来 总 是 不 如 名 字 那 么 方便 ,所 以 ,就 采用 了 域名 系统 来 管理 名 字 
和 IP 的 对 应 关系 。 因 此 ,DNS 是 因特网 的 一 项 核心 服务 , 它 作 为 可 以 将 域名 和 IP 地 址 
相互 映射 的 一 个 分 布 式 数据 库 , 能 够 让 用 户 更 方便 地 访问 互联 网 ,而 不 用 去 记 住 能 够 被 机 
器 直接 读 取 的 IP 数 串 。 

实现 DNS 服务 的 软件 包 有 多 种 ,本章 主 要 介绍 Linux 环境 下 DNS 软件 包 一 一 BIND 
(Berkeley Internet Name Domain) 的 安装 .配置 与 管理 。 


3.1 BIND 概述 


BIND 是 Linux 系统 中 实现 DNS 服务 的 软件 包 。 几 乎 所 有 Linux 发 行 版 都 包含 
BIND, 它 的 功能 有 了 很 大 的 改善 和 提高 ,已 成 为 Internet 上 使 用 最 多 的 DNS 服务 器 软件 。 
由 于 负责 开发 与 维护 开源 BIND 的 互联 网 系统 协会 (Internet Systems Consortium,ISC) 
没有 足够 的 资源 维持 项 目的 开发 ,所 以 在 2013 年 发 布 了 BIND 的 最 后 一 个 版 本 10. 1.2。 


3.1.1 BIND 的 安装 


在 BIND 的 发 行 版 本 中 BIND 9 的 普及 度 最 高 ,所 以 本 书 介绍 在 CentOS 中 BIND 9 
的 安装 。 在 CentOS 中 BIND 的 安装 很 容易 ,可 以 在 系统 安装 阶段 中 选中 DNS 软件 ,也 
可 以 在 系统 安装 完毕 后 再 单独 安装 BIND 软件 包 。CentOS 的 软件 包 一 般 都 采用 rpm 软 
件 包 的 形式 ,可 以 从 安装 光盘 中 找到 BIND 软件 包 , 也 可 以 直接 借助 网 络 安装 。 本 书 采用 
yum 命令 直接 下 载 安装 BIND, 步 又 如 下 。 

安装 之 前 首先 使 用 rpm 命令 检测 一 下 系统 中 是 否 已 安装 了 BIND。 

[root@abcl ~ ]#rpm -qa | grep BIND 

samba- winBIND- 3.6.23- 12.e16.x86 64 

samba- winBIND- clients- 3.6.23- 12.e16.x86 64 

返回 结果 显示 当前 系统 中 没有 安装 BIND 相关 的 组 件 。 接 下 来 我 们 借助 网 络 安装 的 
方式 。 


[rooteabcl ~ ]# yum -Y install BIND BIND- chroot BIND- utils 
安装 过 程 如 图 3-1 所 示 。 

3.1.2 配置 文件 
在 成 功 安装 上 述 软件 包 后 ,还 需要 配置 一 些 文件 来 实现 域名 解析 。 与 域名 解析 相关 
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Loaded plugins: Fastestnirror, security 
Setting up Install Process 

Determining fastest mirrors 

* base: mirrors.btte.net 

* extras: mirrors.nwsuaf.edu.cn 

* updates: mirrors.btte.net 


base 1 3.7 xB 
extras 1 3.4 了 
extras/prinary_db 1 29 xB 
updates 1 3.4 1B 
updates/primary_db 14.7MB 00:06 


Resolving Dependencies 

> Running transaction check 

> Package bind.x86 64 32:9.8.2-0.62.rc1.e16 9.4 will be installed 

> Processing Dependency: bind-libs = 32:9.8.2-0.62.rc1.e16 9.4 for package: 32 
-0.62.rc1.e16 9.4.x86_64 

liblwres.s0.80() (64bit) for package: 32:bind-9.8.2-0. 


62.rc1.e16 9.4.x86_64 
> Processing Dependency: libisccfg.30.82() (64bit) for package: 32:bind-9.8.2-0 
62.rC1.e16 9.4.x86_64 

> Processing Dependency: libisccc.s0.80() (64bit) for package: 32:bind-9.8.2- 
62.rc1.e16 9.4.x86_64 

-> Processing Dependency: libisc.s0.83() (64bit) for package: 32:bind-9.8.2-0.62 
rcl.e16 9.4.x86 64 

~-> Processing Dependency: libdns.s0.81() (64bit) for package: 32:bind-9.8.2-0.62 
rcl,e16 9.4.x86 64 

一 > Processing Dependen 
62-rcl.e16_9.4.x86_64 
一 -> Package bind-chroor.x86_64 32:9.8.2-0.62.rc1.e16 9.4 will be installed 
> Package bind-urils-x86_64 32:9.8.2-0.62.rcl.e16_9.4 will be installed 
> Running transaction check 

> Package bind-libs.x86 64 32:9.8.2-0.62.rc1.e16 9.4 will be installed 
--> Finished Dependency Resolution 


libbind9.s0.80() (64bic) for package: 32:bind-9.8.2-0. 


Dependencies Resolved 


Package Arch Version Repository 。 Size 
Installing: 

bind x86_64 2:9.8.2-0.62.rc1.e16 9.4 updates 4.0M 
bind-chroot x86_64 32:9.8.2-0.62.rcl-e16_9.4 updates Tk 
bind-utils x86_64 32:9.8.2-0.62.rc1.e16 9.4 updates 189 k 
Installing for dependencies: 

bind-libs x86_64 32:9.8.2-0.62.rc1.e16_9.4 updates a92 


Transaction Summary 


Install 4 Package (3) 


Total download size: 5.1 M 
Installed aize: 10 M 
Downloading Packages: 


(1/4): bind-9.8.2-0.62.rc1.e16_9.4.x86_64.rpm 1 4.0 MB 00:05 
(2/4): bind-chroot-9.8.2-0,.62.rc1,.e16 9.4.x86_64.rpm 1 77 YB 00:00 
(3/4): bind-libs-9.8.2-0.62.rc1.e€16 9.4.x86_64.rpm 1 892 XB 00:01 
(4/4): bind-utils-9.8.2-0.62.rc1.e16 9.4.x86_64.rpm 1 189 kB 00:00 
Total 有 


Running rpm_check_debug 
Running Transaction Test 
Transaction Test Succeeded 
Running Transaction 


Installing : 32:bind-libs-9.8.2-0.62.rc1.e16 9.4.x86_64 174 
Installing : 32:bind-9.8.2-0.62.rc1.e16 9.4.x86_64 2/4 
Installing : 32:bind-chroot-9.8.2-0.62.rc1.e16 9.4.x86_64 3/4 
Installing : 32:bind-utils-9.8.2-0.62.rc1.e16 9.4.x86_64 /4 
Verifying : 32:bind-libs-9.8.2-0.62.rcl.e16 9.4.x86 64 174 
Verifying : 32:bind-9.8.2-0.62.rcl.e16_9.4.x86_64 2/4 
Verifying : 32:bind-utils-9.8.2-0.62.rc1.e16 9.4.x86 64 3/4 
Verifying : 32:bind-chroot-9.8.2-0.62.rc1.e16 9.4.x86_64 4/4 
Installed: 


bind.x86_64 32:9.8.2-0.62.rcl.e16 9.4 
bind-chrooc.xa6_64 32:9.8.2-0.62.rcl.e16 9.4 
bind-utils.x86_64 32:9.8.2-0.62.rcl.e16 9.4 


Dependency Installed: 
bind-libs.x86_64 32:9.8.2-0.62.rc1.e16 9.4 


Complete! 


3-1 BIND 安装 过 程 
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的 文件 有 /etc/hosts、/etc/host. conf 和 /etc/resolv. conf。 下 面 分 别 介绍 每 个 文件 的 主要 
功能 。 


1. /etc/hosts 


hosts 文件 是 Linux 系统 中 一 个 负责 IP 地 址 与 域名 快速 解析 的 文件 ,以 ASCII 格式 
保存 在 /etc 目录 下 。hosts 文件 包含 了 IP 地址 和 主机 名 之 间 的 映射 ,还 包括 主机 名 的 别 
名 。 在 没有 域名 服务 器 的 情况 下 ,系统 上 的 所 有 网 络 程序 都 通过 查询 该 文件 来 解析 对 应 
于 某 个 主机 名 的 IP 地 址 ,否则 就 需要 使 用 DNS 服务 程序 来 解决 。 通 常 可 以 将 常用 的 域 
名 和 IP 地 址 映射 加 入 到 hosts 文件 中 ,实现 快速 方便 的 访问 。 利 用 hosts 文件 通信 的 主 
机 都 应 该 包含 相同 的 记录 , 即 所 有 主机 都 应 该 包含 相同 的 hosts 文件 。 随 着 网 络 中 主机 
数量 的 不 断 增加 ,维护 起 来 非常 烦琐 ,因此 ,hosts 文件 只 适合 于 主机 数量 很 少 的 网 络 。 
目前 ,虽然 在 系统 中 仍然 可 以 看 到 hosts 文件 ,但 一 般 也 仅 限于 本 机 解析 环 回 地 址 使 用 ， 
或 少数 几 台 主机 通信 。 下 面 是 hosts 文件 的 主要 内 容 : 

IP 地 址 本 机 默认 域名 别名 

127.0.0.1 localhost. localdomain localhost 

一 般 情况 下 ,hosts 文件 中 只 包含 这 一 条 记录 。hosts 文件 的 每 行为 一 个 主机 ,每 行 
由 网 络 IP 地 址 .主机 名 /域名 .主机 名 别名 3 部 分 组 成 ,每 个 部 分 由 空格 隔 开 。 主 机 名 通 
常 在 局 域 网 内 使 用 ,通过 hosts 文件 主机 名 就 被 解析 到 对 应 IP; 域 名 通常 在 Internet 上 使 
用 ,但 如 果 本 机 不 想 使 用 Internet 上 的 域名 解析 ,就 可 以 更 改 hosts 文件 ,加 入 自己 的 域 
名 解析 。 每 行 也 可 以 是 两 部 分 , 即 主机 IP 地 址 和 主机 名 ,例如 192. 168. 1. 100 test100。 


2. /etc/host. conf 


/etc/host. conf 是 解析 器 配置 文件 ,用 来 指定 如 何 解 析 主 机 名 。Linux 通过 解析 库 
(resolver library) 来 获得 主机 名 对 应 的 IP 地 址 。 


order hosts,BIND # 关 键 字 order 用 来 指明 主机 查询 的 顺序 , 先 在 hosts 文 件 中 查询 ,如 果 未 
找到 ,再 利用 DNS 查询 


3. /etc/resolv. conf 


/etc/resolv. conf 是 DNS 客户 端的 配置 文件 ,用 于 设置 DNS 服务 器 的 IP 地 址 及 
DNS 域名 ,还 包含 了 主机 的 域名 搜索 顺序 。 该 文件 是 由 域名 解析 器 (resolver, 一 个 根据 
主机 名 解析 IP 地 址 的 库 ) 使 用 的 配置 文件 。 它 的 格式 很 简单 ,每 行 以 一 个 关键 字 开 头 , 后 
接 一 个 或 多 个 由 空格 隔 开 的 参数 。 


domain test.com # 定 义 本 地 域名 
search test.com # 定 义 域 名 的 搜索 列表 
nameserver 192.168.1.111 # 服 务 器 IP 地 址 


nameserver 192.168.1.112 # 服 务 器 备用 IP 地址 
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3.2 BIND 主 配置 文件 


BIND 的 主 配 置 文件 named. conf 和 /etc/named. rfc1912. zones 用 来 实现 域名 服务 的 
关键 配置 文件 ,包括 DNS 服务 器 的 类 型 .特性 `. 区 域 的 名 称 等 。 


3.2.1 named. conf 的 默认 配置 


named. conf 是 DNS 服务 器 的 全 局 配置 文件 ,由 一 个 个 子 句 组 成 ,每 个 子 句 都 有 一 个 
头 跟 一 对 大 括号 组 成 ,大 括号 里 面 是 该 子 句 中 的 因子 和 值 。 下 面 的 代码 是 named. conf 的 
一 个 默认 配置 ,其 中 // 为 注释 符号 。 


[root@abcl ~ ]# cat /etc/named.conf 

// 

// named.conf 

// 

// Provided by Red Hat BIND package to configure the ISC BIND named (8) DNS 

// server as a caching only nameserver (as a localhost DNS resolver only). 
A 

// See /usr/share/doc/BIND* /sample/ for example named configuration files. 
// 


options { 
listen- on port 53 { 127.0.0.1; }; 
listen- on- v6 port 53 { ::1; }7 
directory "/var/named"; // 指 定 区域 数 据 库 文件 存放 的 位 置 
dump- file "/var/named/data/cache dump.db";  // 指 定 转 储 文件 存放 的 位 置 及 文件 名 
statistics- file "/var/named/data/named stats.txt"; 
memstatistics- file "/var/named/data/named mem stats.txt"; 


allow- query { localhost; }; // 允 许 哪 些 主机 可 以 查询 本 服务 器 
recursion yes; // 开 启 递归 解析 

dnssec- enable yes; // 开 启 DNS 安全 特性 

dnssec- validation yes; // 开 启 DNs 安全 合法 性 检验 


/* Path to ISC DLV key */ 
BINDkeys- file "/etc/named.iscdlv.key"; 


managed- keys- directory "/var/named/dynamic"; 
}; 


logging { 
channel default debug { 
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file "data/named.run™"; 


severity dynamic; 


zone "." IN { // 关 键 字 zone 用 来 定义 区 域 ,此 处 定义 根 "." 区 域 
type hint; // 定 义 区 域 类 型 为 提示 类 型 
file "named.ca"; // 指 定 该 区 域 的 数据 库 文件 为 named.ca 

]7 

include "/etc/named.rfc1912.zones"; // 将 区 域 定义 文件 包含 进来 ,关键 文件 


include "/etc/named.root .key"; 


3.2.2 修改 named. conf 
1. 修改 监听 的 端口 号 和 IP 


listen- on port 53 { any; }; // 监 听 来 自任 意 TP 地 址 上 53 号 端口 的 数据 包 
listen- on port 53 { 192.168.233.128; }; // 监 听 来 自 IP192.168.233.128 上 53 号 端口 的 
数据 包 


2. 查询 本 服务 器 的 主机 列表 


allow- query { any; }; // 允 许 任 意 主 机 进行 DNS 查询 


3.2.3 默认 区 域 配置 文件 /etc/named. rfc1912. zones 
/etc/named. rfc1912. zones 是 DNS 服务 器 的 区 域 配置 文件 ,默认 配置 代码 如 下 所 示 。 


// named.rfc1912.zones: 

// 

// Provided by Red Hat caching- nameserver package 

// 

// ISC BIND named zone configuration for zones recommended by 
// REC 1912 section 4.1 : localhost TLDs and address zones 

// and afts/draft- ietf- dnsop- default- local- zones- 02.txt 
// (c)2007 RW Franks 

// 

// See /usr/share/doc/BIND* /sample/ for example named configuration files. 
// 


zone "localhost.localdomain" IN { // 定 义 区 域 localhost.localdomain 

type master; // 定 义 区 域 类 型 为 主要 类 型 

file "named.1localhost"; // 指 定 该 区 域 的 数据 库 文件 为 named.localhost 
allow- update { none; }; // 不 允许 更 新 
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zone "localhost" IN { // 定 义 区 域 localhost 

type master; // 定 义 区 域 类 型 为 主要 类 型 

file "named.1localhost"; // 指 定 该 区 域 的 数据 库 文件 为 named.localhost 
allow- update { none; }; // 不 允许 更 新 


]7 


zone "1.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.ip6.arpa" IN { 
// 定 义 反 向 区 域 , 该 区 域 为 TPv6 的 地 址 表示 方法 


type master; // 定 义 区 域 类 型 为 主要 类 型 
file "named.loopback"7 // 指 定 该 区 域 的 数据 库 文件 为 named.loopback 
allow-update { none; }; // 不 允许 更 新 


bs; 


zone "1.0.0.127.in-addr.arpa" IN { // 定 义 反 向 区 域 1.0.0.127.in- addr.arpa 


type master; // 定 义 区 域 类 型 为 主要 类 型 

file "named.1oopback"; // 指 定 该 区 域 的 数据 库 文件 为 named.1oopback 
allow- update { none; }; // 不 允许 更 新 

bs; 

zone "0.in-addr.arpa" IN { // 定 义 反 向 区 域 0.in- addr.arpa 

type master; // 定 义 区 域 类 型 为 主要 类 型 

file "named.empty"; // 指 定 该 区 域 的 数据 库 文件 为 named.empty 
allow- update { none; }; // 不 允许 更 新 


}; 


3.2.4 自 定义 区 域 


DNS 服务 器 是 以 区 域 为 单位 来 进行 管理 的 ,用 zone 关键 字 来 定义 区 域 。 一 个 区 域 
是 一 个 连续 的 域名 空间 ,区 域名 称 一 般 用 双 引 号 引起 来 。 下 面 自 定 义 一 个 区 域 : 区 域名 
为 test. com, 区 域 类 型 为 master 类 型 ,区域 数 据 库 文件 名 为 test. com. zone。zone 段 配 置 
代码 如 下 。 


Zone "test.com" IN { 
type master; 
file "test .com.zone"; 
] 7 
区 域 test. com 为 正 向 区 域 ,同样 的 方法 ,再 来 定义 一 个 用 来 实现 IP 地 址 到 域名 翻译 
的 反 向 区 域 。 反 向 区 域 的 名 称 是 网 络 地 址 的 “逆序 ”, 即 若 反 向 区 域 的 IP 是 192. 168. 
233. 128 ,那么 反 向 区 域 的 名 称 应 该 是 233. 168. 192. in-addr. arpa, 其 中 . in-addr. arpa 必 
须 加 上 ,arpa 表示 反 向 域名 空间 的 顶级 域名 ,in-addr 表示 arpa 的 下 一 级 域名 。 下 面 自 定 
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义 一 个 反 向 区 域 : 区 域名 233. 168. 192. in-addr. arpa, 区 域 类 型 为 master 类 型 ,区域 数 据 
库 文件 名 为 test. com. rezone。zone 段 配置 代码 如 下 。 


zone "233.168.192.in- addr.arpa" IN { 
type master; 


file "test.com.rev"; 


3.3 正 向 区 域 数 据 库 文件 


上 面 定义 了 区 域 test. com, 接 下 来 在 /var/named 目录 下 需要 定义 区 域 数 据 库 的 文件 
test. com. zone, 配置 代码 如 下 。 


$TTL 86400 
@ IN SOA dns.test.com. admin.test.com.( 
201810101 
1800 
3600 
604800 
86400 
) 

IN NS dns.test.com. 
dns IN A 192.168.233.128 
WwW IN A 192.168.233.127 
mail IN A 192.168.233.126 
ftp IN CNAME www 


文件 中 首先 定义 了 SOA 类 型 的 资源 记录 。 一 般 情况 下 ,SOA(Start of Authority) 起 
始 授权 记录 是 区 域 数 据 库 文 件 中 第 一 条 资源 记录 ,用 来 表示 某 区 域 的 授权 服务 器 是 哪 台 
主机 及 相关 参数 。SOA 记录 的 含义 如 表 3-1 所 示 。 


表 3-1 SOA 记录 的 含义 


标 识 会 义 

@ 区 域名 称 

IN Internet 类 

SOA 起 始 授权 类 型 ,将 某 区 域 授权 给 某 台 服务 器 

serial 区 域 数据 库 文件 的 版 本 号 

refresh 刷新 间隔 , 即 辅 DNS 与 主 DNS 服务 器 的 同步 时 间 间 隔 
retry 重 试 间隔 

expiry 过 期 时 间 

minmum 最 小 生存 期 


文件 后 面 还 定义 了 几 种 典型 的 正 向 资源 记录 ,具体 标识 含义 如 表 3-2 所 示 。 


表 3-2 zheng’xiang 记录 的 含义 
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标 识 会 义 
NS 记录 名 字 服 务 器 类 型 的 记录 
人 A 记录 主机 类 型 的 记录 
CNAME 记录 别名 记录 


使 用 named-checkconf 和 named-checkzone 命令 ,来 检查 配置 文件 的 语法 是 否 有 


[root@abcl ~ ]named- checkconf /etc/named.conf 

[root@abcl ~ ]# named- checkzone "test .com.zone" /var/named/test .com.zone 
zone test .com.zone/IN: loaded serial 201810101 

OK 


3.4 反 向 区 域 数据 库 文件 


正 向 区 域 数据 库 文件 定义 好 后 , 接 下 来 建立 反 向 区 域 文件 。 


[root@abcl ~ ]#vi /var/named/test.com.rev 
$ TTL 86400 
@ IN SOA dns.test.com. admin.test.com.( 
201810101 
1800 
3600 
604800 
86400 


IN NS dns.test.com. 

128 IN BTR dns.test.com. 
127 IN PTR www.test.com. 
126 IN PTR mail.test.com. 
ftp IN CNAME www 


一 般 情况 下 , 正 、 反 向 区 域 数据 库 文件 的 SOA 与 NS 记录 是 相同 的 ,所 以 只 需 用 
PTR 类 型 来 定义 由 IP 地 址 到 域名 翻译 的 记录 即 可 。 


3.5 测试 DNS 服务 


DNS 服务 器 端 配置 好 后 , 接 下 来 开始 运行 及 测试 工作 。 
1. 重启 DNS 服务 


[root@abcl ~ ]# service named restart 
Stopping named: [oOoK] 
Starting named: [OK] 
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2. 测试 DNS 服务 


常用 的 测试 DNS 服务 命令 有 3 种 ,分 别 是 nslookup、host 和 dig。 
1) nslookup 命令 
nslookup 命令 后 跟 上 要 解析 的 域名 或 IP 地 址 。 


[rooteabcl ~ ]# nslookup dns.test.com 
Server: 192.168.233.128 
Rddress: 192.168.233.128#53 


Name: dns.test.com 
Address: 192.168.233.128 


2) host 命令 

host 命令 后 跟 上 要 解析 的 域名 或 IP 地 址 ,也 可 加 上 -a 参数 , 列 出 详细 信息 。 
[root@abcl ~ ]# host www.test .com 

Www.test .com has address 192.168.233.127 

[root@abcl ~ ]#host -a www.test.com 

Trying "www.test.com" 

77 -> > HEADER< < -opcode: QUERY, status: NOERROR, id: 63233 

;? flags: qr aa rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 1, ADDITIONAL: 1 


77 QUESTION SECTION: 


7www.test.com. IN ANY 


;?? ANSWER SECTION: 
Www.test .com. 86400 IN A 192.168.233.127 


77 AUTHORITY SECTION: 
test .com. 86400 IN NS dns.test.com. 


;; RDDITIONRL SECTION: 

dns.test.com. 86400 IN A 192.168.233.128 

Received 80 bytes from 192.168.233.128# 53 in 0 ms 

3) dig 命令 

dig 命令 后 跟 上 要 解析 的 域名 ,来 显示 从 受 请 求 的 域名 服务 器 返回 的 答复 。 如 要 进 
行 反 向 查询 需要 加 上 -x 参数 。 


[rooteabcl ~ ]# dig mail.test.com 


; <<>>DiG 9.8.2rcl-RedHat- 9.8.2- 0.62.rcl.e16 9.4 <<>>mail.test.com 
;7 global options: + cmd 
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77 Got answer: 


7 ->> HERADER<<- opcode: QUERY, status: NOERROR, id: 47984 
77 flags: qr aa rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 1, ADDITIONAL: 1 


77 QUESTION SECTION: 


mail.test .com. INA 


77 ANSWER SECTION: 
mail.test.com. 86400 IN A 192.168.233.126 


77 RUTHORITY SECTION: 
test.com. 86400 IN NS dns.test.com. 


77 ADDITIONAL SECTION: 
dns.test .com. 86400 IN A 192.168.233.128 


77 Query time: 0 msec 

77 SERVER: 192.168.233.128# 53 (192.168.233.128) 
77 WHEN: Sat Feb 3 21:07:33 2018 

27 MSG SIZE rcvd: 81 


[root@abcl ~ ]# dig -x 192.168.233.128 


7 <<>>DiG 9.8.2rcl-RedHat- 9.8.2- 0.62.rcl.e16 9.4 <<>>-x 192.168.233.128 
?7 global options: + cmd 

77 Got answer: 

77 —>> HEADER<< — opcode: QUERY，status: NOERROR, id: 18857 

;? flags: qr aa rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 1, ADDITIONAL: 1 


77 QUESTION SECTION: 
;128.233.168.192.in-addr.arpa。 IN PTR 


277 ANSWER SECTION: 
128.233.168.192.in-addr.arpa. 86400 IN PTR dns.test.com. 


77 AUTHORITY SECTION: 
233.168.192.in-addr.arpa. 86400 IN NS dns.test.com. 


77 ADDITIONAL SECTION: 
dns.test .com. 86400 IN A 192.168.233.128 


7? Query time: 0 msec 
;7 SERVER: 192.168.233.128# 53(192.168.233.128) 
77 WHEN: Sat Feb 3 21:09:06 2018 
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;; MSG SIZE rcvd: 102 
3.6 辅 DNS 


主 DNS 服务 器 (master DNS) 保 存 的 是 某 个 区 域 的 数据 ,并 对 此 区 域 数据 是 可 读 可 
写 的 , 即 可 以 在 该 服务 器 上 直接 修改 区 域 数据 库 的 内 容 。 而 辅 DNS 服务 器 (slave DNS) 
保存 的 是 某 个 区 域 的 辅助 版 本 (只 读 版 本 ), 它 只 能 提供 查询 服务 而 不 能 在 该 服务 器 上 修 
改 该 区 域 的 内 容 。 一 般 来 说 , 辅 DNS 服务 器 一 是 作为 主 DNS 服务 器 的 备份 ,二 是 分 担 主 
DNS 服务 器 的 负载 。 


3.6.1 辅 DNS 的 配置 


辅 DNS 服务 器 的 区 域 数 据 库 文件 是 从 主 DNS 服务 器 复制 过 来 的 ,所 以 配置 辅 DNS 
服务 器 只 需 编辑 DNS 的 区 域 配置 文件 即 可 ,无须 建立 区 域 数 据 库 文件 。 


1. 配置 辅 DNS 
配置 辅 DNS 的 区 域 配置 文件 ,zone 段 代码 如 下 。 


[root@abc2 ~ ]# Vi /etc/named.rfc1912.zones 
Zone "test.com" IN { 

type slave; 

file "slaves/test .com.zone.slave"; 
masters {192.168.233.128;}; 

}; 


zone "233.168.192.in-addr.arpa" IN { 
type slave; 

file "slaves/test .com.rev.slave"; 
masters {192.168.233.128;}; 

}; 


注意 ,这 两 个 区 域 的 名 称 应 与 主 DNS 服务 器 中 区 域 的 名 称 一 致 。 
2. 配置 主 DNS 
首先 在 主 DNS 的 区 域 配置 文件 里 加 上 辅 DNS 的 信息 ,zone 段 代 码 如 下 。 


[root@abcl ~ ]# vi /etc/named.rfc1912.zones 
zone "test.com" IN { 

type master; 

file "test.com.zone"; 

allow- transfer {192.168.233.129;}; 

}; 
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zone "233.168.192.in- addr.arpa" IN { 
type master; 

file "test.com.rev"; 

allow- transfer {192.168.233.129;}; 
bs; 


然后 分 别 在 正 、 反 向 区 域 数 据 库 文 件 里 加 上 辅 DNS 的 NS 记录 ,代码 如 下 。 


[root@abcl ~ ]# vi /var/named/test.com.zone 
STTL 86400 
@ IN SOA dns.test.com. admin.test.com.( 
201810101 
1800 
3600 
604800 
86400 


IN NS dns.test.com. 
IN NS dns2.test.com. 

dns IN A 192.168.233.128 
WwW IN A 192.168.233.127 
mail IN A 192.168.233.126 
dns2IN A 192.168.233.129 
ftp IN CNAME www 
[root@abcl ~ ]#vi /var/named/test.com.rev 
STTL 86400 
@ IN SOA dns.test.com. admin.test.com.( 

201810101 

1800 

3600 

604800 

86400 
) 
IN NS dns.test.com. 
IN NS dns2.test.com. 
128 IN PIR dns.test.com. 
129 IN PTIR dns2.test.com. 
127 IN PIR www.test.com. 
126 IN PIR mail.test.com. 
ftp IN CNAME www 


修改 好 后 ,重新 运行 DNS 服务 。 


[root@abcl ~ ]# service named restart 
Stopping named: [og] 
Starting named: [OK ] 
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3. 启动 辅 DNS 服务 


[root@abc2 ~ ]# service named start 
Starting named: [oKg ] 


此 时 , 辅 DNS 服务 器 已 从 主 DNS 服务 器 上 将 正 ` 反 区 域 数据 库 文件 复制 到 了 /var/ 
named/slaves/ 目 录 下 。 


[root@abc2 ~ ]#1s /var/named/slaves 


test .com.rev.slave test .com.zone.slave 


3.6.2 测试 辅 DNS 
在 辅 DNS 上 ,利用 dig 命令 正 反 向 查询 来 测试 辅 DNS 服务 器 。 


[root@abc2 ~ ]#dig -t A www.test .com @192.168.233.128 


? <<>>DiG 9.8.2rcl- RedHat- 9.8.2- 0.62.rcl.el16 9.4 <<>>-t A www.test.com @192.168.233.128 
;; global options: + cmd 

77 Got answer: 

277 ->> HEADER<< — opcode: QUERY, status: NOERROR, id: 45445 

77 flags: qr aa rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 2, ADDITIONAL: 2 


77 QUESTION SECTION: 


7wWww.test.com. INA 


77 ANSWER SECTION: 
Www. test .com. 86400 IN A 192.168.233.127 


77 AUTHORITY SECTION: 
test.com. 86400 IN NS dns2.test.com. 
test .com. 86400 IN NS dns.test.com. 


77 ADDITIONAL SECTION: 
dns.test.com. 86400 IN A 192.168.233.128 
dns2.test.com. 86400 IN A 192.168.233.129 


77 Query time: 0 msec 

277 SERVER: 192.168.233.128# 53(192.168.233.128) 
;2? WHEN: Sat Feb 3 23:49:26 2018 

77 MSG SIZE rcvd: 115 


[root@abc2 ~ ]#dig -x 192.168.233.129 @192.168.233.128 


? <<>>DiG 9.8.2rcl- RedHat— 9.8.2- 0.62.rcl.el6 9.4 <<>>—x 192.168.233.129 @192.168. 
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233.128 

77 global options: + cmd 

72; Got answer: 

77 - >> HEADER<< — opcode: QUERY, status: NOERROR, id: 27363 

;;? flags: qr aa rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 2, ADDITIONAL: 2 


77 QUESTION SECTION: 
?129.233.168.192.in-addr.arpa. IN PIR 


77 ANSWER SECTION: 
129.233.168.192.in-addr.arpa. 86400 IN PTR dns2.test.com. 


77 RUTHORITY SECTION: 
233.168.192.in-addr.arpa. 86400 IN NS dns.test.com. 
233.168.192.in-addr.arpa. 86400 IN NS dns2.test.com. 


77 ADDITIONAL SECTION: 
dns.test.com. 86400 IN A 192.168.233.128 
dns2.test.com. 86400 IN A 192.168.233.129 


;7? Query time: 0 msec 

77 SERVER: 192.168.233.128# 53 (192.168.233.128) 
77 WHEN: Sat Feb 3 23:51:09 2018 

27 MSG SIZE rcvd: 137 


从 测试 结果 可 以 看 出 , 辅 DNS 已 经 正常 工作 。 
3.7 子 域 


子 域 (Subdomain) 是 域名 层次 结构 中 的 一 个 术语 ,是 对 某 一 个 域 进行 细 分 时 的 下 一 
级 域 ,从 而 实现 DNS 的 层次 化 和 分 布 式 。 例 如 ,test. com 是 一 个 顶级 域名 ,可 以 把 sub. 
test. com 配置 成 是 它 的 一 个 子 域 。 配置 子 域 可 以 有 两 种 方式 ,一 种 是 把 子 域 配置 放 在 另 
一 台 DNS 服务 器 上 , 即 子 域 和 父 域 在 不 同 的 DNS 服务 器 上 。 还 有 一 种 是 子 域 配置 与 父 
域 配置 放 在 一 起 , 即 子 域 和 父 域 在 同一 台 DNS 服务 器 上 。 


3.7.1 父子 域 在 同一 台 DNS 服务 器 上 
父子 域 在 同一 台 DNS 服务 器 上 的 情况 又 称 为 虚拟 子 域 ,配置 方法 如 下 。 
1. 配置 父 域 的 正 向 区 域 数 据 库 
在 父 域 的 正 向 区 域 数据 库 中 增加 子 域 的 记录 ,配置 代码 如 下 。 


STTL 86400 
@ IN SOR dns.test.com. admin.test.com.( 
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201810101 
1800 
3600 
604800 
86400 


IN NS dns.test.com. 
IN NS dns2.test.com. 

dnsIN A 192.168.233.128 

Ww IN A 192.168.233.127 

mail IN A 192.168.233.126 

dns2IN A 192.168.233.129 

dns.subl.test.com。 IN A 192.168.233.130 // 以 下 两 行 代码 为 直接 增加 的 子 域 记录 

subl.test.com. IN CNAME dns.subl.test .com. 

ftp IN CNAME www 


2. 配置 父 域 的 反 向 区 域 数据 库 
在 父 域 的 反 向 区 域 数据 库 中 增加 子 域 的 PRT 记录 ,配置 代码 如 下 。 


STTL 86400 
@ IN SOA dns.test.com. admin.test.com.( 
201810101 
1800 
3600 
604800 
86400 


IN NS dns.test.com. 
IN NS dns2.test.com. 
128 IN PTR dns.test.com. 


129 IN PTR dns2.test.com. 

127 IN PTR www.test.com. 

126 IN PTR mail.test.com. 

130 IN PTR dns.subl.test.com. // 以 下 两 行 代码 为 直接 增加 子 域 的 PRT 记录 
130 IN PTR subl.test.com. 

ftp IN CNAME www 

3. 测试 子 域 


重新 启动 named 进程 ,进行 测试 。 


[root@abcl ~ ]# service named restart 
Stopping named: [OK ] 
Starting named: [OK ] 
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[root@abcl ~ ]# nslookup 

> sub.test.cam 

Server: 192.168.233.128 
Address: 192.168.233.128# 53 


sub.test.com canonical name =dns.sub.test.com. 
Name: dns.sub.test.com 

Rddress: 192.168.233.130 

>192.168.233.130 

Server: 192.168.233.128 

Address: 192.168.233.128# 53 


130.233.168.192.in-addr.arpa name =sub.test.com. 
130.233.168.192.in-addr.arpa name =dns.sub.test.com. 
>exit 
从 测试 结果 可 以 看 出 , 子 域 建立 成 功 。 

3.7.2 父子 域 在 不 同 DNS 服务 器 上 


父子 域 在 不 同 的 DNS 服务 器 上 更 能 体现 出 分 布 式 的 特点 ,这 种 情况 又 称 为 区 域 委 
派 , 即 父 域 将 子 域 委派 给 另 一 台 机 器 来 管理 。 一 般 情况 下 ,只 需要 做 正 向 区 域 委派 ,很 少 
进行 反 向 区 域 委派 ,所 以 下 面 介绍 一 下 正 向 区 域 配置 方法 。 

区 域 委派 的 实现 分 为 两 部 分 ,一 是 在 父 域 DNS 服务 器 的 区 域 数据 库 文 件 中 设置 指向 
子 域 的 记录 ;二 是 在 子 域 DNS 服务 器 上 建立 该 子 域 的 数据 库 文件 。 其 中 第 二 部 分 就 是 建 
立 子 域 的 主 DNS 服务 器 。 

例如 ,建立 区 域 test. com 的 子 域 sub2. test. com, 其 中 父 域 DNS 服务 器 的 IP 地 址 为 
192. 168. 233. 128 , 子 域 的 DNS 服务 器 为 192. 168. 233. 131。 配 置 方法 如 下 。 


1. 配置 父 域 的 正 向 区 域 数据 库 
在 父 域 的 正 向 区 域 数据 库 中 增加 指向 子 域 DNS 的 记录 ,配置 代码 如 下 。 


[rooteabcl /]#vi /var/named/test .com.zone 
$TTL 86400 
@ IN SOA dns.test.com. admin.test.com.( 
201810101 
1800 
3600 
604800 
86400 
) 
IN NS dns.test .com. 
IN NS dns2.test .com. 
dns IN A 192.168.233.128 
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ww IN A 192.168.233.127 


mail 


N A 192.168.233.126 


dns2IN A 192.168.233.129 


dns.subl.test.com. IN A 192.168.233.130 


subl.test.com. IN CNAME dns.subl.test.com. 
sub2.test.com。 IN NS dns.sub2.test.com. // 定 义 子 域 的 DNs 服务 器 是 


dns.sub2.test.com. 


dns.sub2.test.com。 IN A 192.168.233.131  // 增 加 子 域 的 DNS 记录 
ftp IN CNAME www 


2. 配 


置 子 域 的 DNS 服务 器 


在 子 域 的 DNS 服务 器 (192. 168. 233. 131) 上 编辑 主 配置 文件 ,定义 区 域 . sub2. test. 
com, 配 置 代码 如 下 。 


Zone ". 


sub2.test.com" IN { 


type master; 


file " 
]7 


sub2.test.com.zone"7 


3. 在 子 域 的 DNS 服务 器 上 创建 子 域 的 正 向 区 域 数 据 库 文件 sub2. test. com. zone 


配置 人 


码 如 下 。 


[root@abc3 named]# vi /var/named/sub2.test .com.zone 


STTL 8 
@ IN 
201810; 


) 


6400 

SOA dns.sub2.test.com. admin.sub2.test.com.( 
105 

1800 

3600 

604800 

86400 


IN NS dns.sub2.test.com. 


dns.sub2.test.com。 IN A 192.168.233.131 
ww IN A 192.168.233.131 


4. 测试 子 域 
子 域 重新 启动 named 进程 。 


[root@abc3 ~ ]# service named restart 


Stopping named: [oK ] 


Starting named: [Ook] 


父 域 


和 新 启动 named 进程 。 
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[root@abcl ~ ]# serv: ice named restart 


Stopping named: [og] 
Starting named: [OK ] 
在 父 域 DNS 服务 器 上 进行 测试 。 


[root@abcl /]#dig -七 及 www.sub2.test.com @192.168.233.128 


7 <<>>DiG 9.8.2rcl-RedHat- 9.8.2- 0.62.rcl.e16 9.5 <<>>-t A www.sub2.test.com @192.168. 
233.128 

77 global options: + cmd 

77 Got answer: 

77 ->> HEADER<< -opcode: QUERY, status: NOERROR, id: 5250 

77 flags: qr rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 1, ADDITIONAL: 1 


77 QUESTION SECTION: 
?Www. sub2.test .com. IN A 


77 ANSWER SECTION: 
Www.sub2.test.com. 86400 IN A 192.168.233.131 


77 RUTHORITY SECTION: 
sub2.test.com. 86400 IN NS dns.sub2.test.com. 


?? ADDITIONAL SECTION: 
dns.sub2.test.com. 86400 IN A 192.168.233.131 


277 Query time: 1 msec 

?7 SERVER: 192.168.233.128# 53 (192.168.233.128) 
77 WHEN: Thu Apr 12 01:32:29 2018 

77 MSG SIZE rcvd: 85 


通过 以 上 步骤 实现 了 正 向 区 域 委派 ,从 测试 结果 可 以 看 出 子 域 建立 成 功 。 
3.8 高 级 配置 


前 面 讨论 了 DNS 服务 器 的 基本 配置 内 容 , 下 面 将 介绍 几 个 典型 的 BIND 高 级 配置 。 
3.8.1 DNS 转发 


当 客 户 提出 查询 请 求 时 ,首先 向 自己 首选 DNS 发 出 解析 请 求 , 如 果 该 首选 DNS 被 配 
置 为 forwarding DNS server, 那 么 forwarding DNS server 会 先 在 缓存 和 本 地 区 域 数据 库 
中 进行 查询 , 若 未 找到 相应 记录 , 则 将 请 求 转发 给 forwarder DNS server, 让 forwarder 
DNS server 蔡 forwarding DNS server 进行 解析 。 如 果 forwarder DNS server 能 够 查 到 
结果 , 则 将 结果 返还 给 forwarding DNS server, 并 且 自 己 缓存 一 份 ; 接 着 ,由 forwarding 
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DNS server 将 得 到 的 结果 应 答 给 客户 ,并 且 自 己 也 缓存 一 份 ,解析 成 功 完成 。 如 果 
forwarder DNS server 没有 查 到 结果 , 则 将 “未 找到 ”返还 给 forwarding DNS server; 接 
着 ,forwarding DNS server 自己 再 进行 一 次 解析 ,这 次 不 再 利用 forwarder DNS server， 
如 果 还 不 能 找到 , 则 forwarder DNS server 返还 给 客户 “未 找到 ”。 

显然 ,forwarding DNS server 是 要 利用 forwarder DNS server 进行 解析 的 ,这 样 可 以 
在 很 大 程度 上 减少 forwarding DNS server 的 工作 量 。 配 置 使 用 转发 器 forwarder, 实 际 
上 就 是 把 自己 变 成 forwarding DNS server。 

上 一 小 节 中 ,区 域 委派 时 只 能 在 父 域 中 查找 到 子 域 的 记录 ,而 子 域 中 找 不 到 父 域 的 记 
录 。 如 果 想 让 子 域 解析 父 域 ,可 以 在 子 域 的 配置 文件 (/etc/namd. conf) 中 设置 转发 区 域 
指向 父 域 , 这 样 就 可 以 解析 到 父 域 中 的 主机 了 。 主 配置 文件 中 原始 内 容 不 变 , 只 增加 一 个 
区 域 文件 即 可 ,因为 转发 不 需要 数据 文件 。 

在 子 域 的 DNS 服务 器 (192. 168. 233. 131) 上 编辑 文件 /etc/named. conf, 增 加 zone 
段 代 码 配 置 如 下 。 


Zone "test.com" IN { 
type forward; 
forwarders{192.168.233.128;}; 
a 


子 域 和 父 域 重新 启动 named 进程 后 ,在 子 域 上 测试 。 


[root@abc3 named]# dig -七 及 www.test .com @192.168.233.128 


? <<>>DiG 9.8.2rcl- RedHat- 9.8.2- 0.62.rcl.el6 9.5 <<>>-t A www.test.com @192.168.233.128 
;2; global options: + cmd 

77 Got answer: 

77 —>> HEADER<< — opcode: QUERY, status: NOERROR, id: 53245 

;? flags: qr aa rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 2, ADDITIONAL: 2 


277 QUESTION SECTION: 
7www.test.com. IN A 


277 RNSWER SECTION: 
WwW. test .com. 86400 IN A 192.168.233.127 


?? AUTHORITY SECTION: 
test .com. 86400 IN NS dns.test.com. 
test .com. 86400 IN NS dns2.test.com. 


77 ADDITIONAL SECTION: 
dns.test .com. 86400 IN A 192.168.233.128 
dns2.test .com. 86400 IN A 192.168.233.129 
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77 Query time: 0 msec 

77 SERVER: 192.168.233.128# 53(192.168.233.128) 
77 WHEN: Mon Apr 16 02:15:26 2018 

;7 MSG SIZE rcvd: 115 


从 以 上 结果 可 以 看 出 ,将 父 域 DNS 服务 器 作为 子 域 DNS 服务 器 的 forwarder DNS 
server 后 ,就 可 以 实现 在 子 域 DNS 服务 器 上 “成 功 解析 ” 父 域 DNS 服务 器 中 的 记录 了 。 


3.8.2 负载 均衡 


随 着 网 络 的 规模 越 来 越 大 ,网 络 服务 器 的 负担 也 变 得 越 来 越 重 。 一 台 服 务 器 要 同时 
应 付 成 千 上 万 用 户 的 并 发 访问 ,必然 会 导致 服务 器 过 度 繁忙 ,甚至 运行 不 稳定 。 为 了 解决 
这 个 问题 ,可 以 在 DNS 服务 器 上 配置 负载 均衡 功能 。 

DNS 负载 均衡 是 在 DNS 服务 器 中 为 同一 个 域名 配置 多 个 IP 地 址 (为 一 个 主机 名 设 
置 多 条 A 资源 记录 ) ,在 应 答 DNS 查询 时 ,DNS 服务 器 对 每 个 查询 将 以 DNS 文件 中 主机 
记录 的 IP 地 址 按 顺序 返回 不 同 的 解析 结果 ,将 客户 端的 访问 引导 到 不 同 的 机 器 上 去 ,使 
得 不 同 的 客户 端 访问 不 同 的 服务 器 ,从 而 达到 负载 均衡 的 目的 。 这 就 是 实现 负载 均衡 的 
最 简单 的 方法 一 一 轮 询 。 下 面 编辑 正 向 区 域 数据 库 文件 ,为 域 www. test. com 增加 两 个 
IP 地 址 ,配置 代码 如 下 。 


[root@abcl named]# vi /var/named/test .com.zone 
STTL 86400 
@ IN SOA dns.test.com. admin.test.com.( 
201810101 

1800 

3600 

604800 

86400 


IN NS dns.test.com. 
IN NS dns2.test.com. 
A 192.168.233.128 
A 192.168.233.127  // 以 下 两 行为 域 www.test.com 增 加 两 个 IP 地 址 
IN A 192.168.233.132 
A 192.168.233.133 
A 192.168.233.126 
dns2IN A 192.168.233.129 


mailIN 


dns.subl.test.com. IN A 192.168.233.130 
subl.test.com. IN CNAME dns.subl.test.com. 
sub2.test.com. IN NS dns.sub2.test.com. 
dns.sub2.test.com. IN A 192.168.233.131 
ftp IN CNAME www 


重新 启动 named 进程 后 ,测试 。 
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[rooteabcl named]# nslookup 
>www.test.com 

Server: 192.168.233.128 
Address: 192.168.233.128# 53 


Name: Www.test.com 

Address: 192.168.233.127 

Name: Www.test.com 

Address: 192.168.233.132 

Name: www.test.com 

Rddress: 192.168.233.133 

>exit 

在 查询 www. test. com 时 ,DNS 服务 器 首先 用 第 一 条 记录 的 值 192. 168. 233. 127 来 
应 答 , 再 有 查询 www. test. com 时 ,DNS 服务 器 会 用 第 二 条 记录 的 值 192. 168. 233. 132 
来 应 答 ,依次 类 推 ,循环 采用 相应 的 记录 来 应 答 客户 的 请 求 , 从 而 实现 最 简单 的 负载 均衡 。 


3.8.3 远程 DNS 管理 一 一 RNDC 


RNDC(Remote Name Domain Controllerr) 是 一 个 远程 管理 BIND 的 工具 ,通过 这 个 
工具 可 以 在 本 地 或 者 远程 了 解 当前 服务 器 的 运行 状况 ,也 可 以 对 服务 器 进行 关闭 、 重 载 、 
刷新 缓存 .增加 删除 zone 等 操作 。 

使 用 RNDC 可 以 在 不 停止 DNS 服务 器 工作 的 情况 进行 数据 的 更 新 ,使 修改 后 的 配 
置 文件 生效 。 在 实际 情况 下 ,DNS 服务 器 是 非常 繁忙 的 ,任何 短 时 间 的 停顿 都 会 给 用 户 
的 使 用 带 来 影响 。 因 此 ,使 用 RNDC 工具 可 以 使 DNS 服务 器 更 好 地 为 用 户 提供 服务 。 
在 使 用 RNDC 管理 BIND 前 需要 使 用 RNDC 生成 一 对 密 钥 文件 ,一 半 保 存 于 RNDC 的 
配置 文件 中 , 另 一 半 保 存 于 BIND 主 配 置 文件 中 。RNDC 的 配置 文件 为 /etc/RNDC. 
conf ,在 CentOS 或 者 RHEL 中 ,RNDC 的 密 钥 保存 在 /etc/RNDC. key 文件 中 。RNDC 
默认 监听 在 953 号 端口 (TCP) ,其 实在 BIND9 中 RNDC 默认 就 是 可 以 使 用 ,不 需要 配置 
密 钥 文件 。 

RNDC 与 DNS 服务 器 实行 连接 时 ,需要 通过 数字 证 书 进行 认证 ,而 不 是 传统 的 用 户 
名 /密码 方式 。 在 当前 版 本 下 ,RNDC 和 named 都 只 支持 HMAC-MD5 认证 算法 ,在 通信 
两 端 使 用 预 共享 密 钥 。 在 当前 版 本 的 RNDC 和 named 中 ,唯一 支持 的 认证 算法 是 
HMAC-MD5 ,在 连接 的 两 端 使 用 共享 密 钥 。 它 为 命令 请 求 和 名 字 服 务 器 的 响应 提供 
TSIG 类 型 的 认证 。 所 有 经 由 通道 发 送 的 命令 都 必须 被 一 个 服务 器 所 知道 的 key_id 签 
名 。 为 了 生成 双方 都 认可 的 密 钥 , 可 以 使 用 RNDC-confgen 命令 产生 密 钥 和 相应 的 配置 ， 
再 把 这 些 配 置 分 别 放 入 named. conf 和 RNDC 的 配置 文件 RNDC. conf 中 。 配 置 代码 
如 下 。 


1. 主 DNS 端 生成 rndec 命令 的 配置 文件 


[root@abcl ~ ]# rndc- confgen > /etc/rndc.conf 


第 3 章 域名 系统 一 -DNS&BIND 79 


2. 查看 rndc. conf 文件 


[rooteabcl ~ ]# cat /etc/rndc.conf 

# Start of rndc.conf 

key "rndc- key" { 

algorithm hmac-md57 

3ecret "6uB3kLgUNPx2/3skS ="; 
bs; 


options { 

default- key "rndc- key"; 
default- server 127.0.0.1; 
default- port 953; 

5; 

#End of rndc.conf 


#Use with the following in named.conf, adjusting the allow list as needed: 
#key "rndc- key" { 

# algorithm hmac-md5; 

# secret "6uB3kLgUWPx2/3skSJERoR=="7 

#3} 

# 

#controls { 

# inet 127.0.0.1 port 953 

# allow { 127.0.0.1; } keys { "rndc- key"; }; 
#3} 

#End of named.conf 


3. 配置 named. conf 文件 


将 rndc. conf 文件 后 11 行内 容 追 加 到 named. conf 文件 ,并 修改 controls 字段 的 配置 , 允 
许 管理 的 网 络 设置 成 0.0.0.0,allow 字段 里 面 加 入 客户 端的 耳 地 址 ,代码 配置 如 下 。 


[root@abcl ~ ]#tail -11 /etc/rndc.conf >> /etc/named.conf 
[rooteabcl ~ ]#vi /etc/named.conf 
#Use with the following in named.conf, adjusting the allow list as needed: 
key "rndc— key" { 
algorithm hmac- md5; 
secret "6uB3kLgUNPx2/3skSJEROA=="; 
}; 


controls { 
inet 0.0.0.0 port 953 // 这 里 将 地 址 设置 为 0.0.0.0, 运 行 所 有 网 络 管理 DNS 
allow { 192.168.233.128;192.168.233.129; 127.0.0.1; } keys { "mac- key"; }; 
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// 限 定 主机 和 客户 端 192.168.233.129 管 理 DNS 
]7 
# End of named.conf 


4. 客户 端 配置 


将 主 DNS 端 (192. 168. 233. 128) 的 密 钥 文件 远程 复制 到 客户 端 (192. 168. 233. 129) 
上 ,并 修改 options 字段 的 配置 ,将 default-server 设置 成 主 DNS 服务 器 的 IP 地址 ,代码 
配置 如 下 。 


[root@abc2 Desktop]# scp 192.168.233.128:/etc/rndc.conf /etc 
root@192.168.233.128's password: 

rndc.conf 100% 479 0.5KB/s 00:00 
[root@abc2 Desktop]#vi /etc/rndc.conf 

options { 

default- key "rndc- key"; 

default- server 192.168.233.128; ””// 设 置 为 主 DNS 服务 器 的 IP 地 址 
default— port 953; 

}; 


5. 重启 服务 测试 
客户 端 分 别 和 主 DNS 分 别 重启 named 服务 后 ,在 客户 端 上 验证 。 


[root@abc2 Desktop]# service named restart 


Stopping named: [OK ] 
Starting named: [OK ] 
[root@abcl ~ ]# service named restart 

Stopping named: [OK ] 
Starting named: [OK ] 


[root@abc2 Desktop]# rndc - s 192.168.233.128 status 
WARNING: key file (/etc/rndc.key) exists, but using default configuration file (/etc/rndc. 
conf) 

version: 9.8.2rcl- RedHat- 9.8.2-0.62.rcl.el6 9.5 
CPUs found: 1 

worker threads: 1 

number of zones: 21 

debug level: 0 

xfers running: 0 

xfers deferred: 0 

soa queries in progress: 0 

query logging is OFF 

recursive clients: 0/0/1000 

tcp clients: 0/100 

server is up and running 


第 4 章 系统 安全 
4.1 加 密 与 解密 


数据 加 密 技术 ,是 为 提高 信息 系统 和 数据 的 安全 性 和 保密 性 ,防止 秘密 数据 被 外 部 破 
译 而 采用 的 主要 技术 手段 之 一 ,核心 技术 是 密码 学 。 在 实现 上 分 别 从 软件 和 硬件 两 方面 
一 般 加 密 分 对 称 加 密 、 非 对 称 加 密 、 单 向 加 密 3 种 。 


4.1.1 加 密 与 解密 基本 原理 

1. 数据 加 密 的 术语 

任何 一 个 加 密 系 统 都 由 明文 .加密 (解密 ) 算 法 、 密 钥 和 密 文 组 成 。 发 送 方 通过 加 密 设 
备 或 加 密 算法 ,用 加 密 密 钥 将 明文 数据 加 密 后 变 成 密 文 发 送出 去 。 接 收 方 在 收 到 密 文 后 ， 
用 解密 密 钥 通 过 解密 算法 将 密 文 解密 为 明文 。 在 传输 过 程 中 ,即使 密 文 被 非法 分 子 偷窃 
获取 ,得 到 的 也 只 是 无 法 识别 的 密 文 ,从 而 起 到 数据 保密 的 作用 ,如 图 4-1 所 示 。 一 般 加 
密 要 依赖 密 钥 的 安全 ,加 密 解 密 的 算法 是 公开 的 。 


2 一 
六 
被 


动 入侵 者 主动 入侵 者 
只 是 监听 消息 能 够 纂 改 消息 


此 忆 
4-1 加 密 解密 模型 


明文 , 即 原始 的 或 未 加 密 的 数据 。 通 过 加 密 算法 对 其 进行 加 密 , 加 密 算法 的 输入 信息 
为 明文 和 密 钥 。 

密 文 ,明文 加 密 后 的 格式 ,是 加 密 算法 的 输出 信息 。 加 密 算法 是 公开 的 ,而 密 钥 则 是 
不 公开 的 。 密 文 不 应 为 无 密 钥 的 用 户 理解 ,用 于 数据 的 存储 以 及 传输 。 
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密 钥 ,是 由 数字 字母 或 特殊 符号 组 成 的 字符 串 ,用 它 控制 数据 加 密 、 解 密 的 过 程 。 
加 密 , 把 明文 转换 为 密 文 的 过 程 。 

解密 ,对 密 文 实施 与 加 密 相 逆 的 变换 ,从 而 获得 明文 的 过 程 。 

加 密 算 法 ,加密 所 采用 的 变换 方法 。 

解密 算法 ,解密 所 采用 的 变换 方法 。 


2. 对 称 加 密 技术 


对 称 加 密 采用 了 对 称 密码 编码 技术 , 它 的 特点 是 文件 加 密 和 解密 使 用 相同 的 密 钥 , 即 
加 密 密 钥 也 可 以 用 作 解 密 密 钥 ,这 种 方法 在 密码 学 中 叫做 对 称 加 密 算 法 ,对 称 加 密 算 法 使 
用 起 来 简单 快捷 , 密 钥 较 短 , 且 破 译 困 难 , 对 称 加 密 如 图 4-2 所 示 。 


2 


图 4-2 对 称 加 密 模型 


(1) 数据 加 密 标准 (DES-Data Encryption Standard) ,1977 年 被 美国 联邦 政府 的 国家 
标准 局 确定 为 联邦 资料 处 理 标准 。DES 算法 把 64 位 的 明文 输入 块 变 为 64 位 的 密 文 输 
出 块 , 它 所 使 用 的 密 钥 也 是 64 位 (实际 用 到 了 56 位 ,第 8 位 16 位 ,24 位 ,32 位 40 位 、48 
位 、56 位 .64 位 是 校 验 位 ,使 得 每 个 密 钥 都 有 奇数 个 1) 。3DES( 即 Triple DES) 是 DES 向 
AES 过 渡 的 加 密 算法 , 它 使 用 3 条 56 位 的 密 钥 对 数据 进行 3 次 加 密 , 是 DES 的 一 个 更 安 
全 的 变形 。 它 以 DES 为 基本 模块 ,通过 组 合 分 组 方法 设计 出 分 组 加 密 算法 。 

(2) 高 级 加 密 标 准 (AES-Advanced Encryption Standard) ,是 美国 国家 标准 技术 研究 
所 NIST 旨 在 取代 DES 的 21 世纪 的 加 密 标 准 , 已 经 被 多 方 分 析 且 广 为 使 用 。AES 的 基 
本 要 求 是 ,采用 对 称 分 组 密码 体制 , 密 钥 的 长 度 最 少 支持 为 128 位 、192 位 .256 位 ,分 组 长 
度 128 位 ,算法 应 易于 各 种 硬件 和 软件 实现 。 

(3) 国际 数据 加 密 算 法 (IDEA) , 它 比 DES 的 加 密 性 好 ,而 且 对 计算 机 功能 要 求 也 没有 
那么 高 ,但 属于 商业 加 密 算法 。IDEA 加 密 标准 由 PGP(Pretty Good Privacy) 系 统 使 用 。 

(4) Blowfish 由 Bruce Schneier 发 明 的 一 种 在 世界 范围 被 广泛 使 用 的 加 密 方 式 。 
Blowfish 使 用 16 到 448 位 不 同 长 度 的 密 钥 对 数据 进行 16 次 加 密 ,很 难 对 其 进行 解密 。 

此 外 对 称 加 密 算法 还 有 Twofish、RC6 等 作为 AES 的 候选 算法 。 


3. 非 对 称 加 密 技术 
1976 年 ,美国 学 者 Dime 和 Henman 为 解决 信息 公开 传送 和 密 钥 管 理 问题 ,提出 一 种 
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新 的 密 钥 交换 协议 ,允许 在 不 安全 的 媒体 上 的 通信 双方 交换 信息 ,安全 地 达成 一 致 的 密 
钥 , 这 就 是 “公开 密 钥 系统 ”, 如 图 4-3 所 示 。 相 对 于 对 称 加 密 算 法 这 种 方法 也 叫做 非 对 称 
加 密 算法 。 与 对 称 加 密 算法 不 同 , 非 对 称 加 密 算法 需要 两 个 密 钥 : 公开 密 钥 (publickey) 
和 私有 密 钥 (privatekey)。 公 开 密 钥 与 私有 密 钥 是 一 对 ,如 果 用 公开 密 钥 对 数据 进行 加 
密 ,只 有 用 对 应 的 私有 密 钥 才 能 解密 ;如 果 用 私有 密 钥 对 数据 进行 加 密 , 那 么 只 有 用 对 应 
的 公开 密 钥 才能 解密 。 因 为 加 密 和 解密 使 用 的 是 两 个 不 同 的 密 钥 ,所 以 这 种 算法 叫做 非 
对 称 加 密 算 法 。 


i 明文 Bob 的 公 钥 B 

Alike 输 
或 国 二 了 一 仿生 区 
Bob Bob 的 私 钥 B 密 文 


图 4-3 非 对 称 加 密 模型 


4. 单 向 加 密 技术 


单 向 加 密 又 称 为 不 可 逆 加 密 算法 (One-Way) ,在 加 密 过 程 中 不 使 用 密 钥 , 明 文 由 系统 
加 密 人 处 理 成 密 文 , 密 文 无 法 解密 。 一 般 适合 于 验证 ,在 验证 过 程 中 ,重新 输入 明文 ,并 经 过 
同样 的 加 密 算法 处 理 , 得 到 相同 的 密 文 并 被 系统 重新 认证 ,广泛 使 用 于 口令 加 密 。 

该 算法 有 如 下 特点 : 

(1) 对 同一 消息 反复 执行 加 密 得 到 相同 的 密 文 , 定 长 输出 ; 

(2) 加 密 算法 生成 的 密 文 不 可 预见 ,和 明文 没 任何 关系 ; 

(3) 明文 的 任何 微小 的 变化 都 会 对 密 文 产生 很 大 影响 ,不 产生 碰撞 (Collision-free); 

(4) 不 可 逆 , 即 不 能 通过 密 文 获取 明文 。 

比较 流行 的 单 向 加 密 算 法 有 MD5 SHA 等 。 

MD5: MessageDigest Algorigthm 5 ,信息 摘要 算法 ,被 广泛 应 用 于 各 种 软件 密码 认 
证 和 钥匙 识别 ,如 软件 序列 号 。 

SHA: Secure Hash Algorithm, 安 全 哈 希 算法 ,主要 适用 于 数字 签名 标准 (Digital 
Signature Standard,DSS) 里 面 定义 的 数字 签名 算法 (Digital Signature Algorithm,DSA) 。 
对 于 长 度 小 于 2* 位 的 消息 ,SHA 会 产生 一 个 160 位 的 消息 摘要 。 


5. 密 钥 交换 算法 (IKE,Inernet Key Exchange) 


Diffie-Hellman 密 钥 交换 算法 是 一 种 确保 共享 KEY 安全 穿越 不 安全 网 络 的 方法 ， 
akley 算法 是 对 Diffie-Hellman 密 钥 交换 算法 的 优化 。Whitefield 与 Martin Hellman 在 
1976 年 提出 了 一 个 奇妙 的 密 钥 交换 协议 , 称 为 Diffie-Hellman 密 钥 交换 协议 /算法 
(Diffie-Hellman Key Exchange/ Agreement Algorithm) ,这 个 机 制 的 巧妙 在 于 需要 安全 
通信 的 双方 依据 各 自 提供 的 部 分 信息 计算 出 双方 认可 的 一 致 性 的 对 称 密 钥 。 
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(1) 通信 方 A 和 通信 方 B 约定 一 个 初始 数 g, 如 g 二 5, 一 个 质数 p, 如 p= 二 23,g 和 Pp 
是 公开 的 , 且 1=g<p,g 是 p 的 一 个 原 根 。 

(2) A 生成 一 个 随机 数 aa 是 保密 的 ,如 a 二 6。 

(3) A 计算 g^a%p 发 送 给 B,g^a%p 一 5^6%23 一 8。 

(4) B 生成 一 个 随机 数 b,b 是 保密 的 ,如 b==15。 

(5) B 计算 g^b%p 发 送 给 Ag^b%p 一 5^15%23 一 19。 

(6) A 接收 到 g^b%p 后 ,再 使 用 保密 的 a, 计 算 (g^b%p)^a%p 王 19^6%23 王 2。 

(7) B 接收 到 g^*a%p 后 ,再 使 用 保密 的 b, 计 算 (g^a%p)^b%p 二 8^15%23 二 2。 

(8) 这 样 通信 方 A 和 B 得 到 一 个 相同 的 密 钥 : 2。 

(g*b%p)*a%p 二 (g*a%p)^b%p 的 证 明 : 

如 果 a==2: 

(gb%p) “a%p=(gb%p) 2% p= (gb—n*p) “2%p=(g (2x*b)—2x*g bxn* 
p 十 (nx p)^2)%p 一 g (2*b)%p 

可 以 看 出 (g^b 一 nx p)^2 展开 后 除 g^(2 * b) 外 ,其 他 都 是 p 的 倍数 ,所 以 整个 算式 
的 结果 是 g^(2 * b) %p; 

同 理 对 (g^b 一 nx p)^a 展开 后 除 g^(a x* b) 外 ,其 他 都 是 p 的 倍数 ,所 以 整个 算式 的 结 
果 是 g^Caxb)%p; 

同样 可 以 得 出 (g*a%p)^b%p 二 g(a x b)%p， 

所 以 (g^b%p)^a%W%p 一 (g^a%p)^b%p。 

整个 通信 过 程 中 g、p、g^*a%p、g^b%p 是 公开 的 ,这 时 通过 g、p、g^a%p 得 到 a 比较 
难 , 同 样 通过 g、p、g^b%p 得 到 b 比较 难 ,所 以 最 终 的 密 钥 是 比较 安全 的 。 质 数 p 不 是 随 
便 选 择 的 ,需要 符合 一 定 的 条 件 。 随 机 数 ab 的 生成 算法 也 必须 注意 ,应 使 结果 尽 可 能 随 
机 ,不 能 出 现 可 预测 的 规律 ,否则 会 使 破解 变 得 容易 。 


6. 数据 通信 过 程 解决 数据 完整 性 、 数 据 可 靠 性 \ 数 据 私 密 性 


具体 实现 方法 如 下 。 

(1) 数据 完整 性 : 通过 对 发 送 数 据 进行 单 向 散 列 加 密 提取 其 特征 码 , 对 方 接 收 数据 
后 重新 计算 特征 码 并 与 发 送 时 的 特征 码 进行 比 对 以 鉴别 数据 是 否 被 算 改 。 

(2) 数据 可 靠 性 : 即 身份 认证 。 对 提取 的 特征 码 用 发 送 方 的 私 钥 进 行 加 密 后 附加 在 
发 送 数 据 后 一 同 发 送 给 接收 方 。 接 收 方 能 够 用 ( 且 只 能 够 用 ) 发 送 方 的 公 钥 进行 解密 ,以 
鉴别 发 送 文 的 身份 。 

(3) 数据 私密 性 : 发 送 方 为 确保 数据 不 被 以 明文 的 方式 直接 传输 ,利用 对 称 加 密 算 
法 对 (1)、(2) 基 础 上 获得 的 数据 进行 加 密 ,将 对 称 加 密 的 密 钥 用 接收 方 的 公 钥 加 密 后 , 连 
同 对 称 加 密 后 的 数据 传送 给 接收 方 。 

消息 认证 MAC(Message Authenntication Codes) : 消息 认证 是 指 通过 对 消息 或 者 消 
息 有 关 的 信息 进行 加 密 或 签名 变换 进行 的 认证 ,目的 是 为 了 防止 传输 和 存储 的 消息 被 有 
意 无 意 地 修改 ,包括 消息 内 容 认证 ( 即 消息 完整 性 认证 ) 消息 的 源 和 宿 认 证 ( 即 身 份 认 证 ) 
及 消息 的 序号 和 操作 时 间 认 证 等 。 它 在 票据 防伪 中 具有 重要 应 用 (如 税务 的 金 税 系统 和 
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银行 的 支付 密码 器 ) 。 

消息 认证 算法 : 消息 认证 所 用 的 摘要 算法 与 一 般 的 对 称 或 非 对 称 加 密 算 法 不 同 , 它 并 
不 用 于 防止 信息 被 窃取 (私密 性 ) ,而 是 用 于 证 明 原 文 的 完整 性 和 准确 性 用 于 防止 信息 被 自 
改 。 消 息 认证 算法 含有 密 钥 散 列 函 数 算法 ,兼容 了 MD 和 SHA 算法 的 特性 ,并 在 此 基础 上 
加 上 了 密 钥 。 因 此 MAC 算法 也 经 常 被 称 作 HMAC(Hash-based Message Authentication 
Code) 算 法 。 


4.1.2 数据 加 密 解密 的 基本 实现 


用 于 实现 加 密 解密 及 PKI 系统 的 工具 Openssl 或 者 gpg, 本 书 主 要 介绍 Linux 发 行 
版 中 的 SSL 的 开源 实现 Openssl 套件 , 它 主要 包括 : 

liberypto, 通 用 功能 的 加 密 库 ; 

libssl, 用 于 实现 TLX/SSL 的 功能 ; 

openssl, 多 功能 命令 工具 ,可 用 于 密 钥 生成 ,数字 证 书 创建 ,手动 加 密 /解密 数据 。 


1. 对 称 加 密 / 解 密 


(1) 加 密 : openssl enc -des3 -a -salt -in 明文 文件 -out 加 密 文件 
(2) 解密 : openssl enc -d -dec3 -a -salt -in 加 密 文件 -out 明文 /解密 文件 


2. 单 向 加 密 


定 长 输出 : md5: 128bits;shal: 160bits;sha512: 512bits 

包括 以 下 工具 : shalsum,md5sum,openssl dgst 

openssl dgst [-md5 |-md4 |-md2 |-shal |-sha |-mdc2 |-ripemd160 |-dssl ] [-out 
filename] /path/to/somefile 


3. MAC 


信息 摘要 码 , 单 向 加 密 的 延伸 ,应 用 于 实现 在 网 络 通信 中 保证 所 传输 的 数据 完整 性 。 
MAC 调用 单 向 加 密 算法 实现 。 其 中 CBC-MAC 使 用 CRC 算 法 ,HMAC 使 用 MD5 和 SHAI 算 
法 。 


4. 密码 管理 


Linux 系统 中 的 用 户 的 密码 存放 在 /etc/shadow 文件 中 ,并 且 是 以 加 密 的 方式 存放 
的 ,根据 加 密 方式 的 不 同 ,所 产生 的 加 密 后 的 密码 的 位 数 也 不 同 。 密 码 管理 命令 格式 : 


openssl passwd [-crypt] [-1] Faprl] [-salt string] [-in file] [-stdin] {password} 
其 中 常用 的 选项 如 下 。 

-crypt: 生成 标准 的 UNIX 口令 密 文 ,默认 选项 ; 

-1: 表示 采用 的 是 MD5 加 密 算法 ; 

-aprl: Apache md5 口 今 密 文 ; 
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-in: 表示 在 文件 中 读 取 密 码 ; 

-stdin: 从 标准 输入 读 取 密码 ; 

-salt: 指定 salt 值 ,8 字 节 的 字符 串 。 默 认 不 指定 时 采用 随机 产生 的 salt, 保 证 即使 
不 同 用 户 的 密码 一 样 ,所 计算 出 来 的 hash 值 也 不 一 样 ,除非 密码 一 样 ,salt 值 也 一 样 , 计 
算出 来 的 hash 值 才 一 样 。 


5. 公 钥 加 密 


一 般 用 公 钥 加 密 , 私 钥 解 密 ,但 较 少 用 于 数据 加 密 , 主 要 原因 是 加 密 / 解 密 速度 慢 。 采 
用 非 对 称 加 密 算法 进行 数据 加 密 , 采 用 gpg 或 者 openssl rsautl 工具 。 


6. 数字 签名 
一 般 用 私 钥 加 密 , 公 钥 解 密 , 采 用 RSA、EIGamal、DSA 算法 实现 。 
7. 数字 证 书 


数字 证 书 是 一 个 经 证 书 授权 中 心 数字 签名 的 包含 公开 密 钥 拥有 者 信息 以 及 公开 密 钥 
的 文件 。 最 简单 的 证 书包 含 一 个 公开 密 钥 、 名 称 以 及 证 书 授权 中 心 的 数字 签名 。 
Openssl 实现 SSH 互信 配置 及 私有 CA 等 具体 应 用 详 见 后 续 章 节 。 


4.2 SSH 互信 配置 
4.2.1 SSH 基本 原理 


SSH 也 是 一 个 网 络 协 议 , 用 来 进行 安全 数据 传输 ,远程 SHELL 服务 和 命令 执行 等 。 
Windows 客户 端 连接 Linux 服务 器 的 命令 行 工具 包括 putty、ssh client、 SecureCRT、 
Xshell 等 ,Linux 客户 端 和 服务 器 间 相互 连接 使 用 默认 安装 的 OpenSSH 组 件 , 本 书 先 研 
究 基于 Linux 的 客户 端 和 服务 器 连接 。 

SSH 自 下 而 上 由 传输 层 协 议 、 用 户 认 证 协议 、 连 接 协议 3 个 层次 构成 。 

传输 层 协议 (SSH-TRANS) 提 供 了 服务 器 认证 ,保密 性 及 完整 性 ,此 外 还 提供 压缩 功 
能 。 SSH-TRANS 通常 运行 在 TCP/IP 连接 上 ,也 可 能 用 于 其 他 可 靠 数据 流 上 。 该 协议 中 的 
认证 基于 主机 ,并 且 该 协议 不 执行 用 户 认证 。 更 高 层 的 用 户 认 证 协议 可 以 设计 在 此 协议 之 
上 。SSH 的 传输 协议 类 似 SSL/TLS (Diffie Hellman key exchange 以 及 对 称 钥 是 加 密 ) 。 

用 户 认证 协议 (SSH-USERAUTH) 用 于 向 服务 器 提供 客户 端 用 户 鉴 别 功能 。 它 运 
行 在 传输 层 协议 上 面 。 当 用 户 认证 协议 开始 后 , 它 从 低层 协议 那里 接收 会 话 标识 符 ( 从 第 
一 次 密 钥 交换 中 的 交换 哈 希 )。 会 话 标 识 符 唯一 标识 此 会 话 并 且 适 用 于 标记 以 证 明 私 钥 
的 所 有 权 。 用 户 认 证 协议 也 需要 知道 低层 协议 是 否 提供 保密 性 保护 。 

连接 协议 (SSH-CONNECT) 将 多 个 加 密 隧 道 分 成 逻辑 通道 。 它 运行 在 用 户 认证 协 
议 上 ,提供 了 交互 式 登 录 话 路 、 远 程 命令 执行 .转发 TCP/IP 连接 和 转发 X11 连接 。 

客户 端 和 服务 器 通过 密 钥 交换 获得 共享 密 钥 (shared session key) ,之 后 所 有 的 传输 数据 
都 进行 了 加 密 , 然 后 进入 认证 部 分 ,认证 成 功 后 双向 连接 通道 建立 ,通常 是 login shell。 
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4.2.2 基于 Linux 客户 端的 SSH 用 户 认 证 
SSH 实现 用 户 认 证 有 密码 认证 和 公 钥 认证 两 种 常见 方法 。 
1. 密码 认证 


通过 服务 器 端 保存 用 户 名 /密码 来 验证 用 户 的 身份 ,这 是 最 简单 常用 的 用 户 认证 方 
式 , 也 是 SSH 默认 用 户 认证 方式 。 其 认证 过 程 : 

SSH 客户 端 向 服务 器 发 起 TCP 连接 (一 般 22 端口 ) 并 发 送 username (username 是 
SSH 协议 的 一 部 分 ); 

服务 器 的 SSH 守护 进程 (SSH daemon,sshd) 回 应 需要 和 密码; 

SSH 客户 端 提 示 用 户 输入 密码 并 发 送 到 服务 器 端 ; 

SSH 守护 进程 密码 匹配 成 功 , 则 认证 通过 。 

基于 密码 认证 的 缺点 是 容易 被 暴力 破解 ,不 适合 于 管理 多 台 服 务 器 。 若 不 同 的 服务 
器 使 用 不 同 密码 , 则 密码 难于 记忆 ,也 不 可 能 使 用 强 密码 。 


2. 公 钥 认证 


公 钥 认证 (RFC4252) 需 要 先 在 客户 端 生成 公 钥 / 私 钥 对 ,然后 将 客户 端 公 钥 上 传 到 服 
务 器 的 用 户 家 目录 下 . ssh/authorized_keys 文件 中 。 其 认证 过 程 如 下 : 

SSH 客户 端 向 服务 器 发 起 TCP 连接 (一 般 22 端口 ); 

SSH 客户 端 提示 用 户 输 入 私 钥 的 密码 (passphrase) 以 解密 私 钥 ,SSH 客户 端 发 送 用 
私 钥 签名 的 包含 用 户 名 (username) 和 公 钥 等 信息 的 消息 

服务 器 守护 进程 通过 检查 消息 中 指定 用 户 的 家 目录 下 . ssh/authorized_keys 文件 ， 
确定 其 公 钥 是 否 可 认证 并 验证 签名 的 合法 性 并 通过 认证 。 

如 果 公 钥 认 证 失败 ,SSH 还 会 尝试 其 他 认证 策略 ,例如 密码 认证 。 多 个 认证 策略 的 
尝试 顺序 由 SSH 客户 端的 配置 来 决定 ,与 服务 器 无 关 。 

用 作 认 证 的 私 钥 最 好 通过 密码 进行 保护 ,否则 存在 安全 隐患 ,只 要 私 钥 泄露 ,别人 就 
能 访问 你 能 访问 的 所 有 远程 机 器 。 由 于 只 有 一 个 私 钥 ,只 需 设 置 一 个 比较 强 的 密码 。 带 
来 的 新 间 题 是 ,每 次 登录 都 必须 输入 私 钥 的 密码 。 简 单 的 解决 方法 是 生成 公 钥 / 私 钥 对 时 
为 私 钥 设置 空 密码 ,但 不 利于 私 钥 的 安全 。 

公 钥 认证 的 实现 方法 如 下 。 

(1) 确保 客户 端 A 和 服务 器 端 B 都 安装 了 openssh 组件 。 


#rpm -qa | grep openssh 


保持 服务 sshd 为 开机 自动 运行 ,并 默认 其 配置 文件 /etc/ssh/sshd_config。 
(2) 客户 端 A 生成 公 钥 / 私 钥 对 ,如 图 4-4 所 示 。 


# ssh-keygen [-t rsa] 


此 操作 会 自动 在 用 户 家 目录 下 生成 . ssh 目录 和 相关 公 钥 和 私 钥 并 设置 默认 权限 。 


若 在 提示 Enter passphrase (empty for no passphrase) 和 Enter same passphrase again: 
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图 4-4 生成 公 钥 / 私 钥 对 


直接 按 Enter 键 则 为 私 钥 输入 空 密 钥 保护 ,可 实现 无 密码 访问 。 
(3) 将 客户 端 A 生成 的 公 钥 上 传 到 服务 器 端 B, 如 图 4-5 所 示 。 
# ssh-copy-id 服务 器 IP; 将 客户 端 公 钥 文件 追加 到 服务 器 端 用 户 家 目录 下 . ssh/ 
authorized_keys 文件 中 ,也 可 以 用 复制 粘贴 方式 实现 


图 4-5 上 传 客户 端 公 钥 到 服务 器 


(4) 客户 端 A 公 钥 认证 方式 登录 服务 器 B。 
# ssh 服务 器 IP 


此 时 若 生成 公 钥 / 私 钥 对 时 提供 了 私 钥 保护 密码 ,客户 端 则 提示 此 私 钥 密 码 以 实现 公 
钥 身 份 认证 。 若 生成 公 钥 / 私 钥 对 时 设置 空 密码 , 则 可 直接 登录 实现 无 密码 访问 。 


3. 基于 ssh-agent 的 公 钥 认证 


为 解决 每 次 登录 远程 机 器 都 需要 输入 私 钥 密码 的 问题 ,同时 提供 私 钥 密码 保护 ,SSH 
代理 机 制 ssh-agent 被 引入 。ssh-agent 启动 后 ,可 通过 ssh-add 方法 将 私 钥 加 入 ssh- 
agent 代理 队列 中 。ssh-add 添加 私 钥 时 会 一 次 性 提示 用 户 输入 密码 以 解密 私 钥 ,ssh- 
agent 可 同时 管理 多 个 私 钥 。 

(1) 基于 ssh-agent 的 公 钥 认证 过 程 如 下 。 

SSH 客户 端 向 目标 机 器 发 起 TCP 连接 (一 般 22 端口 ); 


第 4 章 系统 安全 89 


SSH 客户 端 向 本 地 的 ssh-agent 请 求 , 得 到 私 钥 签 名 的 包含 用 户 和 公 钥 等 信息 的 消 
息 , 向 服务 器 发 送 此 消息 和 签名 ; 

服务 器 守护 进程 通过 检查 消息 中 指定 用 户 的 家 目录 下 . ssh/authorized_keys 文件 ， 
确定 公 钥 是 否 可 用 作 认 证 并 验证 签名 的 合法 性 并 通过 认证 。 如 果 ssh-agent 中 有 多 个 私 
钥 , 会 依次 尝试 ,直到 认证 通过 或 遍历 所 有 私 钥 。 这 种 认证 方式 下 , 私 钥 只 存在 于 ssh- 
agent 的 队列 (内 存 中 ) ,SSH 客户 端 并 没有 获取 到 私 钥 。 

(2) 基于 ssh-agent 的 公 钥 认证 的 实现 如 下 。 

QO@ 客户 端 A 生成 公 钥 / 私 钥 对 并 提供 私 钥 密 码 保护 ,过 程 同 公 钥 认 证 实现 ; 

@ #eval ssh-agent ;启动 ssh-agent 并 显示 Agent pid 

©@ #ssh-add ;一 次 性 输入 私 钥 密 码 ,自动 将 客户 端 私 钥 添 加 到 代理 队列 

@#ssh-add - L ;查看 已 经 添加 到 队列 的 密 钥 

@ #ssh 服务 器 IP ;自动 登录 到 服务 器 B, 不 用 提供 私 钥 密 码 


4. ssh-agent forwarding 的 公 钥 认证 


客户 端 A, 能 通过 公 钥 分 别 直 接 登 录 服 务 器 B 和 服务 器 C, 但 B 和 C 之 间 无 公 钥 登 
录 。 如 果 用 户 从 客户 端 A 登录 服务 器 了 B 后 ,又 想 从 B 登 录 C (或 从 B 传输 文件 到 C) , 仍 
然 需要 输入 客户 端 私 钥 的 密码 (如 果 B 上 也 配置 了 客户 端 用 户 的 私 钥 )。ssh-agent 
forwarding 可 有 效 解决 这 一 问题 。 

则 A 登录 BB 后 ,通过 B 登录 C 的 ssh-agent forwarding 的 公 钥 认证 过 程 如 下 : 

(1) 用 户 通 过 基于 ssh-agent 的 公 钥 认证 方式 登录 B。 

用 户 从 已 向 C 发 起 ssh 连接 请 求 : 用 户 通过 SSH 客户 端 程序 向 B 本 地 的 agent 请 
求 得 到 私 钥 签 名 的 包含 username 和 公 钥 等 信息 的 message。 注 意 B 上 ssh-agent 就 没有 
启动 ,SSH 客户 端 程序 只 是 检查 $ SSH_AUTH_SOCK 这 个 环境 变量 是 否 存在 ,如 果 存 
在 , 则 和 这 个 变量 指定 的 domain socket 进行 通信 。 而 这 个 domain socket 其 实 是 由 
server 上 的 sshd 创建 的 。 所 以 SSH 客户 端 程序 其 实 是 和 sshd 在 通信 ; 

B 转发 该 请 求 到 A 的 SSH 客户 端 : 因 B 的 sshd 并 没有 用 户 私 钥 信 息 , 所 以 B 的 
sshd 其 实 是 转发 该 请 求 到 A 的 SSH 客户 端 程序 ,再 由 A 的 SSH 客户 端 程序 将 请 求 转 发 
给 A 的 agent。 该 agent 将 需要 的 消息 和 签名 准备 完毕 后 ,再 将 此 数据 按 原 路 返回 到 B 
的 SSH 客户 端 。 路 径 如 下 所 示 : 


agent A—($SSH AUTH SOCK) 一 ssh 有 一 (tcp) 一 \ 

sshd B 一 ($SSH AUTH SOCK) 一 ssh B 一 (tcp) 一 sshd C; 

sh-agent forwarding 就 是 指 所 有 中 间 节 点 的 sshd 和 ssh 都 充当 了 数据 转发 的 角色 ， 
一 直 将 私 钥 的 request 转发 到 了 客户 端的 agent, 然 后 再 将 客户 端 agent 的 response 原 路 
返回 。 事实 上 ,通过 ssh agent forwarding, 能 实现 任意 级 别 的 无 密码 登录 。 并 且 私 钥 只 
保存 在 客户 端 机 器 上 ,保证 了 私 钥 的 安全 。 

ssh-agent forwarding 的 公 钥 认证 实现 如 下 。 

准备 工作 : 将 客户 端 用 户 的 公 钥 分 别 上 传 到 服务 器 B 和 C ,使 用 户 可 通过 客户 端 A 
以 ssh-agent 的 公 钥 认证 方式 分 别 登 录 服务 器 BB 和 C. 但 B 和 C 间 无 公 钥 认证 实现 。 
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(2) 用 户 通过 客户 端 A 以 基于 ssh-agent 的 公 钥 认证 的 方式 附加 代理 转发 功能 登录 服 
务 器 B。ssh-agent forwarding 功能 是 默认 关闭 的 ,为 实现 任意 级 别 无 密码 登录 有 两 种 方法 。 

方法 一 : 客户 端 A 连接 服务 器 B 时 使 用 -A 参数 

##ssh-A B 服务器 的 卫 ;-A 参数 打开 ssh-agent forwarding 并 在 B 上 会 生成 $SSH_AUTH 
SOCK 环境 变量 ,如 图 4-6 所 示 。 


加 rorDejmpfesh gkR2230 ox 
[roote@B /]# 11 /tmp/ 

total 4 

drwx-———-—— 2 root root 4096 Oct 3 22:08 ssh-gvzGKR2230 


[root@B /]# cd /tmp/ssh-gvzGKR2230/ 

[root@B ssh-gvzGKR2230]# 11 

total 0 

srwxr-xr-x 1 root root 0 Oct 3 22:08 agent.2230 


图 4-6 启用 agent forwarding 后 在 目标 机 器 上 生成 套 接 字 


方法 二 : 在 客户 端 修改 ssh 的 配置 文件 (用 户 配置 文件 一 /. ssh/config 或 者 全 局 配置 
文件 /etc/ssh/ssh_config ,用 户 配置 文件 权限 高 于 Bar = 
全 局 配置 文件 ) ,打开 ssh-agent 转发 功能 如 图 4-7 上 
所 示 , 其 中 HostName( 或 Host) 指 服务 器 B。 

(3) 在 B 服务 器 上 通过 ssh-agent forwarding 图 4-7 一 /. ssh/config 配置 文件 
方式 登录 C。 

# ssh C 服 务 器 ITP ” ;无须 用 户 密 钥 密码 ,直接 登录 成 功 

Ssh-agent forwarding 打开 之 后 ,也 会 存在 安全 的 风险 。 如 果 用 户 A 通过 ssh 连接 也 
并 打开 了 agent forwarding, 因 为 B 上 的 root 用 户 也 有 权限 访问 与 agent 通信 的 套 接 字 , 只 
要 root 用 户 将 $ SSH_AUTH_SOCK 指向 用 户 A 对 应 的 套 接 字 地 址 ,就 可 以 以 A 的 身份 访 
问 其 他 A 可 以 访问 的 机 器 。 因 此 请 确保 agent forwarding 仅 在 可 信任 的 服务 器 上 打开 。 


4.2.3 基于 Windows 客户 端的 SSH 用 户 认 证 


和 基于 Linux 客户 端的 SSH 用 户 认 证 方式 类 似 ,以 远程 连接 工具 putty 为 例 实 现 基 
于 Windows 客户 端 SSH 互信 认证 。 

下 载 并 安装 Putty 完整 版 。 分 32 位 和 64 位 两 种 版 本 ,根据 客户 端 Windows 操作 系 
统 选 择 下 载 相应 的 msi 安装 程序 。 

运行 安装 下 载 的 安装 程序 安装 Putty 完整 版 ,安装 后 目录 主要 包括 : 用 于 远程 登录 
Linux 服务 器 程序 putty 和 用 于 生成 Windows 环境 下 的 密 钥 程 序 

密码 验证 方式 远程 登录 Linux 服务 器 : 

运行 putty 并 配置 首次 登录 信息 ,包括 Linux 服务 器 Host Name(or IP address) ,还 
可 以 通过 appearance 修改 登录 后 终端 字体 字号 ,前景 字体 颜色 .背景 颜色 等 信息 后 ,在 
Save Sessions 输入 此 次 连接 的 会 话 名 称 ,方便 以 后 再 次 连接 。 配 置 结果 如 图 4-8 所 示 。 

单 击 Open 按钮 开始 登录 Linux 服务 器 ,如 果 第 一 次 在 此 Windows 上 远程 连接 
Linux, 会 出 现 如 图 4-9 所 示 的 安全 提示 , 单 击 * 是 ”按钮 后 在 出 现 的 登录 界面 里 输入 用 户 
名 和 密码 ,显示 登录 成 功 并 出 现 SHELL 提示 符 ,如 图 4-10 所 示 。 


puttygen。 
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图 4-8 配置 登录 信息 


PuTTY Security Alert x 


The server's host key is not cached in the registry. You 
have no guarantee that the server is the computer you 
think it is. 

The server's rsa2 key fingerprint is: 

ssh-rsa 2048 85.80.87:f2:12:cc54:78:8d:37.95:aa04:aa:2fee 
If you trust this host hit Yes to add the key to 

PuTTY's cache and carry on connecting. 

If you want to carry on connecting just once, without 
adding the key to the cache, hit No. 

If you do not trust this host hit Cancel to abandon the 
connection. 


图 4-9 首次 登录 安全 提示 


本 ooretomvard- - oO x 


227's password 
]# 


21 02:31:32 2017 


P 
| 


图 4-10 登录 服务 器 


1， 免 密码 验证 方式 远程 登录 Linux 服务 器 

密码 验证 方式 远程 登录 Linux 服务 器 时 需要 输入 所 登录 服务 器 对 应 用 户 名 和 密码 ， 
如 果 运 维 人 员 同 时 通过 同一 个 客户 端 远程 管理 多 个 Linux 服务 器 时 需要 管理 多 个 密码 。 
为 此 可 通过 密 钥 方式 实现 免 密 码 验 证 方式 远程 登录 Linux 服务 器 。 
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(1) 生成 Windows 客户 端的 密 钥 对 。 

运行 Puttygen 程序 , 按 图 4-11 所 示 参 数 , 单 击 【Generate】 按 钮 ,并 在 空白 处 随机 晃动 
鼠标 ,生成 公 钥 / 私 钥 对 ,并 单 击 【Save private key] 按 钮 把 私 钥 保存 成 扩展 名 为 . ppk 的 
私 钥 文件 备用 ,如 id_ras_win. ppk。 为 实现 免 密码 方式 登录 ,生成 密 钥 时 保护 密码 Key 
passphrase 应 保留 为 空 。 此 时 不 要 关闭 程序 ,保留 生成 的 公 钥 的 窗口 如 图 4-12 所 示 。 


夺 PuTTY Key Generator ? x 
Ele Key Conversions Help 


Nokey. 


Acbons 
Generate a pubiic/prvate key par 已 Eee | 
Load an existing private key fle Load 
Savethe generated key [ pm 


Parameters 


Type of key to generate: 
sh ODsA OEcosA OED25519 OSSH1RSAN 
2048 


Number of bits in a generated key: 


图 4-11 运行 Puttygen 程序 


著 PuTTY Key Generator ? 号 
Ele Key Conversions Help 

Key 

Public key for pasting nto OpenSSH authorzed_keys fi 


sshrsa ~ 
AAAAB3NzaC1yc2EAAAABJQAAAQEAmPvwts8mynoVc3qSa5DfNcYdLD4DIPn41Na | 
YRY6OV*TX5FKZ] 

|+8+F77CVIAFsOXD2CS2BrBdpX inVkCNTknQ2B2dcaSpOlzRpzmTJD5UQqt SecYBi0 
SpRPGhxEwdvyKm IfLQCJdHs MbNDBP7UII6CRaMq9CYZFuiNO+acLJcaH83kerUE Y 
Key fingerpaint: sshsa 2048 ad:6a-65:62.c7b3:46:09:62.41.75-25:1d.38:38:4e 


Key comment rsakey-20170919 


BSA ODsA OECDSA OED25519 OSSH-1(RSA) 
Number of bts na generated key 2048 


图 4-12 生成 Windows 客户 端 密 钥 对 


(2) 选中 并 复制 Public key for pasting into Open SSH authorized_keys file: 下 面 的 
公 钥 内 容 到 前 切 板 备用 。 

(3) 通过 上 述 密码 验证 方式 连接 远程 Linux 服务 器 ,将 上 步 复 制 的 公 钥 粘贴 到 服务 
器 用 户 家 目录 一 /. ssh/authorized_keys 文件 中 (如 图 4-13 所 示 ) 并 保存 ,文件 中 已 经 保存 
了 两 个 rsa 格式 的 公 钥 。 如 果 一 /. ssh/authorized_keys 目录 或 文件 不 存在 ,可 直接 创建 。 
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( 注 : 使 用 vi 编辑 器 时 ,应 当先 进入 编辑 模式 后 再 粘贴 ,否则 公 钥 串 ssh-rsa 中 第 1 个 字符 
s 会 被 vi 理解 为 删除 并 进入 插入 模式 ,其 余 字 符 被 粘贴 ) 。 


万 oargioward~ 口 


|vl /Ya4mtw46ec+1067EFNWaEjOLEt00n8Y8v7Bb3S8XQ 一 rooteforward.1localdom| 
ain 

ssh-rsa RARAB3Nzac1yc2ERRRABJOAAAQEhmPvwts8mynoVc3qSa5DENcYaLD4D1Pn| 
41NaYBtY6OV+TX5EKZ1+8+ETTCVI NTknQ2B2dca9pcl 
pzmTJDSUQgtSecYBi0SpRPGhxEwd TUiITECRAMAICYZEU: 
NO+acLJcaB83kerUEKEFUt6pfOidXglbaVACO/OC/oRrAoafEeRf1VBqybDI6Qv6y9r| 
KRNPVtLWERrBXn9TIZSYCKIATIZnEOdyAPA3PTtH/ fruFOeXeU6R9epHOOGHYMGT tvV| 
XDPAY2VVUz8rpER1SU6buu6wVddBRThR/rFhHU+tnWQ— rsa-key-20170919 


".ssh/authorized keys" 2L, 804C > 


图 4-13 上 传 公 钥 到 远程 Linux 服务 器 


(4) 设置 putty 密码 验证 方式 远程 登录 Linux 服务 器 。 在 putty 配置 登录 信息 窗口 
中 , 单 击 Connection~>data~~Auto-login username, 设 置 用 于 登录 的 用 户 名 为 root。 单 击 
SSH-~Auth-Private key file for authentication , 单 击 [Browser] 选 择 步骤 1 中 保存 的 私 
钥 ( 如 id_rsa_win. ppk) 文 件 。 重 新 命名 会 话 并 保存 , 单 击 【Open] 按 钮 可 直接 登录 ,如 
图 4-14 所 示 。 


图 4-14 免 密码 成 功 登录 界面 


(5) 设置 putty 快捷 方式 。 右 击 选择 “属性 ”命令 的 “快捷 方式 ?标签 页 ,在 “目标 ”中 
输入 C:\Program Files\ putty \putty. exe-i "id_ras_win. ppk" root@192. 168. 1. 227 ,如 
图 4-15 所 示 。 这 要 求 putty 和 d_ras_win. ppk 保存 在 同一 个 目录 下 

这 样 建立 好 以 后 ,直接 双击 该 快捷 方式 ,也 不 用 输入 IP 地 址 ， 就 登录 了 远程 主机 。 


2. 免 密 码 登录 问题 及 解决 方案 


如 果 免 密码 登录 时 出 现 如 图 4-16 所 示 拒 绝 登 录 错 误 , 主 要 原因 是 一 /.ssh/ 
authorized_keys 文件 没有 SELinux 上 下 文 属性 ,导致 无 法 通过 SELinux 认证 。 
解决 问题 方法 如 下 : 


# Festorecon -R -V /root 


该 命令 的 作用 恢复 /root 目录 下 所 有 文件 的 默认 SELinux 安全 上 下 文 属性 。 
如 果 不 能 解决 问题 ,可 先 禁 用 SELinux, 如 图 4-17 所 示 ,删除 authorized_keys 文件 ， 
重新 创建 authorized_keys 并 上 传 客户 端 公 钥 ,但 一 般 会 给 系统 安全 带 来 风险 。 


Re 
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192.168.10.221 


营 规 | 快捷 方式 | 兼容 性 | 安全 _ | 详细 信息 | 以 前 的 版 本 


看 192. 168. 10.221 
图 


目标 类 型 : 。 应 用 程序 
目标 位 置 CS 


目标 0) :NPUTTY. EXE -i “private-key. ppk” root@ 


起 始 位 置 8); Cc;\ 


快捷 键 00， 无 
运行 方式 RE)， [常规 窗口 ~ 
备注 加 


医 F2RDTEERS DR ER 到 到 | 


芭 本 四 [ 记 88 [58w 


图 4-15 设置 免 密码 登录 快捷 方式 


图 4-17 重新 启用 SELinux 


启动 enforcing ,系统 重启 后 重新 标记 SELinux 策略 ,如 图 4-18 所 示 ， 


@ centos67-DoUNIC -Vi 


Werkstaticn = | BM ~ 


Eee ey EECTEET 下 


图 4-18 启用 SELinux 后 重新 标记 SELinux 策略 
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3. 密 钥 代 理 转发 


Putty 客户 端 密 钥 代理 转发 设置 如 图 4-19 所 示 ,在 免 密 码 验 证 方式 远程 登录 Linux 
服务 器 基础 上 选中 Allow agent forwarding 选项 。 


假 mrry Configuratior ? 
Category: 
Features ~ Options controling SSH authentication 
日 Wndow 
Appearance Display pre-authentication banner (SSH-2 only) 
Behaviour 口 Bpass authentication entrey (SSH-2 only) 
Tensation = 
BB | Mthentication methods 
Colours HB Mtempt authentication using Pageant 
日 -Connection | Atempt TIS or CyptoCard auth (SSH-1) 
Data 口 Aaempt keyboard teractive” auth (SSH-2) 
Proxy | 
Telnet "| Authentication parameters 
Rogn | Now aoentfomardng 


司 -SSH 必 Mlow attempted changes of usemame in SSH-2 
Kex Prvate key fle for authentication 


图 4-19 Putty 客户 端 密 钥 代 理 转 发 设置 


4.3 基于 私有 CA 的 安全 Web-HTTPS 


超 文本 传输 协议 HTTP 协议 被 用 于 在 Web 浏览 器 和 网 站 服务 器 之 间 传 递 信息 。 
HTTP 协议 以 明文 方式 发 送 内 容 , 不 提供 任何 方式 的 数据 加 密 , 如 果 攻 击 者 截取 了 Web 
浏览 器 和 网 站 服务 器 之 间 的 传输 报 文 ,就 可 以 直接 读 懂 其 中 的 信息 ,因此 HTTP 协议 不 
适合 传输 一 些 敏 感 信息 ,如 信用 卡号 、 密 码 等 。 

为 了 解决 HTTP 协议 的 这 一 缺陷 ,需要 使 用 另 一 种 协议 HTTPS (Hyper Text 
Transfer Protocol over Secure Socket Layer, 安 全 套 接 字 层 超 文本 传输 协议 ) 。 为 了 数据 
传输 的 安全 ,HTTPS 在 HTTP 的 基础 上 加 入 了 SSL 协议 ,SSL 依靠 证 书 来 验证 服务 器 
的 身份 ,并 为 浏览 器 和 服务 器 之 间 的 通信 加 密 。 


4.3.1 PKI 


PKI(Public Key Infrastructure, 公 钥 基 础 设施 ) 是 提供 公 钥 加 密 和 数字 签名 服务 的 
系统 或 平台 ,目的 是 为 了 管理 密 钥 和 证 书 。 一 个 机 构 通过 采用 PKI 框架 管理 密 钥 和 证 书 
可 以 建立 一 个 安全 的 网 络 环境 。 认 证 中 心 CA 是 PKI 的 核心 。 采 用 HTTPS 的 服务 器 必 
须 从 CA(Certificate Authority) 申 请 一 个 用 于 证 明 服务 器 用 途 类 型 的 证 书 。 该 证 书 只 有 
用 于 对 应 的 服务 器 的 时 候 , 客 户 端 才 信 任 此 主机 。 所 以 所 有 的 涉 密 的 Web 应 用 如 电子 银 
行 系统 ,关键 部 分 应 用 都 是 HTTPS 的 。 
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CA(Certificate Authority, 电 子 商务 认证 授权 机 构 ) ,也 称 为 电子 商务 认证 中 心 ,负责 
发 放 和 管理 数字 证 书 的 权威 机 构 ,并 作为 电子 商务 交易 中 受信 任 的 第 三 方 ,承担 公 钥 体系 
中 公 钥 的 合法 性 检验 的 责任 。 一 个 组 织 受信 任 的 根 证 书 会 分 发 给 所 有 需要 用 到 的 PKI 
系统 的 用 户 。 主 流 浏览 器 (如 IE、Mozilla、Opera 和 Safari 等 ) 会 预先 安装 一 部 分 根 证 书 ， 
这 些 根 证 书 都 是 受信 任 的 证 书 认证 机 构 CA ,这 样 由 他 们 颁发 的 证 书 ,浏览 器 将 可 以 直接 
信任 。 即 使 移 除 了 预先 安置 的 根 证 书 , 当 用 户 再 访问 这 些 被 删除 的 根 证 书 网 站 的 时 候 , 会 
自动 将 这 些 根 证 书 恢复 到 信任 列表 中 。CA 自 签署 证 书 。 


1. 数字 证 书 常见 标准 


Q@ 符合 PKI ITU-T X. 509 标准 ,传统 标准 (. DER .PEM . CER .CRT) 

@ 符合 PKCS#7 加 密 消息 语法 标准 (. P7B . P7C . SPC . P7R) 

@ 符合 PKCS#10 证 书 请 求 标准 (. p10) 

@ 符合 PKCS#12 个 人 信息 交换 标准 (. pfx *. p12) 

X. 509 是 数字 证 书 的 基本 规范 ,而 P7 和 P12 则 是 两 个 实现 规范 ,P7 用 于 数字 信封 ， 
P12 则 是 带 有 私 钥 的 证 书 实现 规范 。 


2. X. S09 数字 证 书 结构 


1) X. 509 简介 

X. 509 被 广泛 使 用 的 数字 证 书 标准 ,是 由 国际 电 联 电信 委员 会 (ITU-T) 为 单 点 登录 
(SSO-Single Sign-on) 和 授权 管理 基础 设施 (PMI-Privilege Management Infrastructure) 
制定 的 公 钥 基础 设施 (PKI-Public Key Infrastructure) 标 准 。X. 509 标准 中 ,为 了 区 别 于 
PMI, 将 PKI 定义 为 支持 公开 密 钥 管 理 并 能 支持 认证 ,加 密 、 完 整 性 和 可 追究 性 服务 的 基 
础 设施 ,PMI 仅仅 使 用 公 钥 技术 但 并 不 管理 公开 密 钥 。 根 据 X. 509 的 定义 ,PMI 完全 可 
以 看 成 PKI 的 一 个 部 分 。X. 509 定义 了 (但 不 仅 限 于 ) 公 钥 证 书 、 证 书 吊 销 清单 ,属性 证 
书 和 证 书 路 径 验 证 算法 等 证 书 标准 。 

2) X. 509 历史 和 用 途 

X. 509 v1 版 本 1988 年 发 布 ,作为 ITU X. 500 目录 服务 标准 的 一 部 分 。 它 设 定 了 一 
系列 严格 的 CA 分 级 体系 来 颁发 数字 证 书 。 和 其 他 网 络 信任 模型 (譬如 PGP) 对 比 , 任 何 
人 ,不 仅仅 是 特定 的 CA ,可 以 签发 并 验证 其 他 密 钥 证 书 的 有 效 性 。 

X. 509 v2 版 本 引入 了 主体 和 签发 人 唯一 标识 符 的 概念 ,以 解决 主体 或 签发 人 名 称 在 
一 段 时 间 后 可 能 重复 使 用 的 问题 ,但 未 得 到 广泛 使 用 。 

X. 509 V3 版 本 是 1996 年 发 布 最 新 的 版 本 。 它 支持 扩展 的 概念 ,因此 任何 人 均 可 定 
义 扩展 并 将 其 纳入 证 书 中。 现在 常用 的 扩展 包括 : KeyUsage( 仅 限 密 钥 用 于 特殊 目的 ， 
例如 “只 签 * 极 重要 ”) 和 AlternativeNames( 人 允许 其 他 标识 与 该 公 钥 关联 ,例如 DNS 名 、 
电子 邮件 地 址 、IP 地 址 ) 。 

3) X. 509 数字 证 书 的 编码 

X. 509 证 书 的 结构 是 用 ASN1(Abstract Syntax Notation One) 进行 描述 数据 结构 ， 
并 使 用 ASN1 语法 进行 编码 。 
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4) X. 509 证 书 的 结构 

Q@ X. 509 证 书 基本 部 分 如 下 。 

a 版 本 号 : 标识 证 书 的 版 本 (版 本 1、 版 本 2 或 是 版 本 3)。 

”序列 号 : 标识 证 书 的 唯一 整数 ,由 证 书 颁 发 者 分 配 的 本 证 书 的 唯一 标识 符 。 

签名 : 用 于 签证 书 的 算法 标识 ,由 对 象 标识 符 加 上 相关 的 参数 组 成 ,用 于 说 明 本 证 
书 所 用 的 数字 签名 算法 。 例 如 ,SHA-1 和 RSA 的 对 象 标识 符 就 用 来 说 明 该 数字 
签名 是 利用 RSA 对 SHA-1 杂凑 加 密 。 

颁发 者 : 证 书 颁 发 者 的 可 识别 名 (DN)。 

有 效 期 : 证 书 有 效 期 的 时 间 段 。 本 字段 由 Not Before 和 Not After 两 项 组 成 ,它们 
分 别 由 UTC 时 间或 一 般 的 时 间 表示 (在 RFC2459 中 有 详细 的 时 间 表 示 规 则 )。 
主体 : 证 书 拥有 者 的 可 识别 名 ,这 个 字段 必须 是 非 空 的 ,除非 在 证 书 扩展 中 有 可 识 
别名 。 

主体 公 钥 信息 : 主体 的 公 钥 (以 及 算法 标识 符 ) 。 

颁发 者 唯一 标识 符 : 仅 在 版 本 2 和 版 本 3 中 有 要 求 , 属 于 可 选项 。 

主体 唯一 标识 符 : 仅 在 版 本 2 和 版 本 3 中 有 要 求 ,属于 可 选项 。 

@ X. 509 证 书 扩展 部 分 如 下 。 

可 选 的 标准 和 专用 的 扩展 ( 仅 在 版 本 2 和 版 本 3 中 使 用 ) ,主要 包括 : 

"发 行者 密 钥 标识 符 : 证 书 所 含 密 钥 的 唯一 标识 符 , 用 来 区 分 同一 证 书 拥有 者 的 多 
对 密 钥 。 

密 钥 使 用 : 一 个 比特 串 , 指 明 ( 限 定 ) 证 书 的 公 钥 可 以 完成 的 功能 或 服务 ,如 证 书签 
名 数据 加 密 等 。 如 果 某 一 证 书 将 KeyUsage 扩展 标记 为 “ 极 重 要 ”, 而 且 设 置 为 
keyCertSign, 则 在 SSL 通信 期 间 该 证 书 出 现时 将 被 拒绝 ,因为 该 证 书 扩展 表示 相 
关 私 钥 应 只 用 于 签 写 证 书 ,而 不 应 该 用 于 SSL 。 

CRL 分 布点 : 指明 CRL 的 分 布地 点 。 

私 钥 的 使 用 期 : 指明 证 书 中 与 公 钥 相 联 系 的 私 钥 的 使 用 期 限 , 它 也 由 Not Before 
和 Not After 组 成 。 若 此 项 不 存在 时 ,公私 钥 的 使 用 期 是 一 样 的 。 

证 书 策 略 : 由 对 象 标识 符 和 限定 符 组 成 ,这 些 对 象 标识 符 与 说 明证 书 的 颁发 和 使 
用 策略 有 关 。 

策略 映射 : 表明 两 个 CA 域 之 间 的 一 个 或 多 个 策略 对 象 标识 符 的 等 价 关 系 , 仅 在 
CA 证 书 里 存在 。 

主体 别名 : 指出 证 书 拥有 者 的 别名 ,如 电子 邮件 地 址 、IP 地 址 等 ,别名 是 和 DN 
(Distinguished Name) 绑 定 在 一 起 的 。 

颁发 者 别名 : 指出 证 书 颁发 者 的 别名 ,如 电子 邮件 地 址 、IP 地 址 等 ,但 颁发 者 的 
DN 必须 出 现在 证 书 的 颁发 者 字段 。 

主体 目录 属性 : 指出 证 书 拥有 者 的 一 系列 属性 。 可 以 使 用 这 一 项 来 传递 访问 控制 
信息 。 

可 利用 openssl、gpg 系统 实现 CA 并 颁发 证 书 。 
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4.3.2 私有 CA 实现 

安全 Web 关键 是 通过 CA 获取 相关 的 证 书 。 这 部 分 介绍 如 何 通过 openssl 实现 基于 
Linux 的 私有 证 书 频 发 机 构 CA, 并 通过 私有 CA 实现 CA 证 书 的 自 签 。 

在 openssl 组 件 关 于 PKI 配置 文件 /etc/pki/tls/openssl. cnf 中 声明 的 CA 默认 配置 
如 图 4-20 所 示 。 


图 4-20 CA 默认 配置 


其 中 crl 目录 是 证 书 吊 销 列 表 ;newcerts 目录 是 新 签发 的 证 书 ;index. txt 是 存放 证 书 
数据 库 的 文件 ,里 面包 含 了 证 书 的 详细 信息 ;serial 是 证 书 编号 。 
(1) 根据 CA 默认 配置 首先 到 要 实现 CA 的 服务 器 的 /etc/pki/CA 目录 下 ,查看 CA 


相关 文件 及 目录 并 生成 缺少 的 文件 


# cd /etc/pki/CA 
#11 
#touch /etc/pki/CA/{serial, index.txt} 


(2) 生成 CA 的 RSA 私 钥 并 保存 为 private/cakey. pem, 如 图 4-21 所 示 。 


# (umask 077;openssl genrsa -out /etc/pki/CA/private/cakey.pem 2048) 


图 4-21 生成 CA 的 RSA 私 钥 


可 根据 生成 的 私 钥 cakey. pem 导出 对 应 公 钥 
# openssl rsa -in private/cakey.pem -pubout -text 


(3) 修改 PKI 配置 文件 /etc/pki/tls/openssl. cnf 设置 好 [ req_distinguished_name 】] 
中 默认 身份 标识 信息 值 ,如 图 4-22 所 示 , 方 便签 署 证 书 时 提供 国家 组 织 等 相关 信息 。 这 
部 分 可 以 在 签署 证 书 时 手动 提供 。 


# vi ../tls/openssl.cnf 
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图 4-22 设置 [ req_distinguished_name ] 中 默认 信息 值 


(4) 根据 生成 CA 的 私 钥 生 成 有 效 期 为 3650 天 的 x509 格式 的 CA 自 签证 书 cacert. 
pem, 在 填写 CA 身份 信息 时 ,可 根据 3 中 填写 的 默认 信息 ,如 图 4-23 所 示 


openssl req - new - x509 - key private/cakey.pem - out cacert.pem - days 3650 


图 4-23 CA 自 签证 书 


到 此 ,CA 配置 基本 完成 ,可 以 为 http 服务 器 签署 证 书 
4.3.3 安全 Web 服务 器 一 一 https 实现 
1. 准备 普通 Web 服务 器 


首先 在 另外 一 台 http 服务 器 上 安装 并 配置 httpd 服务 并 实现 普通 的 Web 服务 器 ,如 
图 4-24 所 示 。 


#rpm -qa | grep httpd 
#service httpd start 


查看 Web 服务 器 页 面 http://192. 168. 1. 229, 如 图 4-25 所 示 
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ET =- 
[rooteB ~]# rpPm -qa | grep httP 

jakarta-commons-httpclient-3.1-0.9 

Ihttpd-tools-2.2.15-47. 

httpa-manual-2.2.15-47.e16.centos.4.noar 

httpd-2.2.15-47.el6.centos.4.x86 64 

[rooteB ~]# sezvice httpd start 

Starting httpd: httpd: apr_sockaddr info get() failed for B.localdomain 

httpa: Could not reliably determine the Server's fully qualified domain name, us 
ing 127.0.0.1 for ServerName 


[ ] 


图 4-24 安装 配置 启动 httpd 服务 


图 Apache HTTP Server Test pa x 


< CO y 192.168.1229 Qi1 


Apache 2 Test Page 
poweredby CentOS 


This page is used to test the proper operation of the Apache HTTP server after it has been installed If you can 
read this page it means that the Apache HTTP server installed at this site is working properly. 


If you are a member of the general publi 


If you are the website administrator: 


The fact that you are seeing this page indicates that CYou may now add content to the 

the website you just visited ls either experiencing directory /var/wun/html/. Note that until you do 

problems or is undergoing routine maintenance. so, people visiting your website will see this page 
and not your content. To prevent this page from 

If you would like to let the administrators of this ever being used, follow the instructions in the 

website know that you've seen this page instead of /ete/httpal ont.afmlonn. cout 

the page you expected, you should send them 

e-mail. In general, mail sent to the name You are free to use the images below on Apache 

"webmaster" and directed to the websites domain and CentOS Linux powered HTTP servers. Thanks 

should reach the appropriate person. for using Apache and CentOS! 


For example, if you experienced problems while 


visiting www.example.com, YOU should send e-mail i A 
to webmaster@example com" 


图 4-25 访问 Web 服务 器 页 面 


2. 生成 Web 服务 器 证 书 申请 


(1) 在 Web 主机 上 生成 Web 服务 器 密 钥 httpd. key, 保 存 
置 文件 目录 下 : 


应 用 此 证 书 的 服务 的 配 


#mkdir /etc/httpd/ssl 
#cd /etc/httpd/ssl 
# (umask 077; openssl genrsa -out httpd.key 1024) 


(2) 根据 Web 服务 器 密 钥 httpd. key 生成 证 书签 署 请 


求 httpd. csr, 如 图 4-26 所 示 。 


#0openssl req -new -key httpd.key -out httpd.csr 


3. 上 传 证 书 申 请 httpd. csr 到 CA 服务 器 


# scp httpd.csr 192.168.1.227:/tmp/ 
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[reot8B ssl]# 11 
total 4 

-rw 1 root root 891 Oct 10 02:43 httpd.key 

[rootQB ssl]# openssl req -new -key httpd.key -out httpd.csr 

You are about to be asked to enter information that will be incorporated 
into your certificate request 

What you are about to enter is what is called a Distinguished Name or a DN. 
There are quite a few fields but you can leave some blank 

For some fields there will be a default value, 

If You enter '.', the field will be left blank 


Country Name (2 letter code) [XX]:CN 
State or Province Name (full name) []:JILIN 

Locality Name (eg, city) [Default City] :SIPING 

organization Name (eg, company) [Default Company Ltd]:JLNU 
organizational Unit Name (eg, section) [] :CsT 

Common Name (eg, your name or your server's hostname) [] :192.168.1.229 
Email Address []:362395362@qq.com 


Please enter the following 'extra' attributes 
to be sent with your certificate request 

A challenge password []: 

An optional company name []: 

[rooteB ss1]# 四 


图 4-26 生成 Web 服务 器 证 书 申请 


4. 在 CA 服务 器 上 将 证 书 申请 httpd. csr 签署 为 正式 证 书 http. ert 
(1) 切换 到 CA 服务 器 的 /etc/pki/CA 目录 ,首先 生成 初始 证 书 编号 。 


#echo 01 > serial 


#openssl ca -in /tmp/httpd.csr -out /tmp/httpd.crt -days 3650 

(2) 查看 证 书 编号 自动 由 01 变 为 02 

#cat serial 

5. 将 证 书 httpd. ert 回 传 Web 服务 器 ,到 此 CA 服务 器 任务 完成 


# scp /tmp/httpd.crt 192.168.1.229:/etc/httpd/ss1/ 


6. 将 Web 服务 器 配置 为 安全 Web-https 
(1) 查看 安全 Web 相关 模块 mod_ssl 
#rpm -qa | grep mod ssl 

(2) 修改 Web 服务 器 ssl. conf 配置 文件 。 
#vi /etc/httpd/conf.d/ssl.conf 


其 中 SSLCertificateFile 指定 相关 证 书 文件 为 /etc/httpd/ssl/httpd. crt。 


crtSSLCertificateKeyFile 指定 服务 器 的 密 钥 文件 为 /etc/httpd/ssl/httpd. key。 


注意 虚拟 主机 配置 与 http 虚拟 主机 配置 一 致 。 
(3) 检查 有 无 语法 错误 。 


#httpd 一 七 
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(4) 重启 一 下 httpd 服务 检查 默认 的 端口 443 是 否 启动 。 
#netstat -tnl | grep 443 


(5) 从 Windows 浏览 器 以 https 方式 访问 安全 Web 服务 器 ,如 图 4-27 所 示 , 单 击 
【继续 浏览 此 网 站 可 访问 安全 Web 页 面 。 


《> 和 C 侣 四 次 htps//1921681229 Qi10% 5 吴 〉 图 - 在 巍 索 Q 中国 火 XD:+ 三 


@ 此 网 站 的 安全 证 书 存在 问题 . 


此 网 站 出 具 的 安全 证 书 不 是 由 受信 任 的 证 书 颁发 机 构 佣 发 的 - 
安全 证 书 问 题 可 能 显示 试图 风 匾 你 或 截 区 你 向 服务 器 发 送 的 数据 
建议 关闭 此 网 页 ,并且 不 要 经 续 浏 览 该 网 站 

固 单 击 此 处 关闭 该 网 页 . 

图 继续 浏览 此 网 站 (不 推荐 ). 

图 详细 信息 


图 4-27 访问 安全 Web 服务 器 页 面 


(6) 吊销 证 书 。 


# openss] ca -revoke /path/to/somefile.crt 


4.4 ”Iptables 防火 墙 
4.4.1 Iptables 防火 墙 基本 原理 与 结构 
1. 简介 


Iptables 防火 墙 是 Linux 发 行 版 内 核 默认 集成 的 免费 的 包 过 滤 防 火 墙 ,可 以 代替 昂 
贵 的 商业 防火 墙 解决 方案 ,完成 数据 包 过 滤 、 数 据 包 重 定向 和 网 络 地 址 转换 (NAT) 等 
功能 。 

Iptables 防火 墙 由 内 核 模块 netfilter 和 管理 工具 iptables 两 部 分 构成 ,完整 的 名 称 为 
netfilter/iptables 防火 墙 。 其 中 ,真正 实现 防火 墙 功 能 的 是 内 核 框架 模块 netfilter, 它 是 
Linux 内 核 中 实现 包 过 滤 的 内 部 结构 。Iptables 是 工作 在 SHELL 上 的 Linux 防火 墙 的 
管理 工具 (命令 ) ,一 般 位 于 /sbin/iptables 负责 与 内 核 的 netfilter 模块 通信 、 建 立 防火 墙 
规则 等 ,所 以 netfilter/iptables 防火 墙 简称 Iptables 防火 墙 ,默认 指 防火 墙 。 

Iptables 防火 墙 随 内 核 演进 过 程 如 下 : 

" Linux2.0 

ipfw/firewall 

" Linux2.2 

ipchain/firewall 


" Linux2.4 
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iptables/netfilter 

根据 防火 墙 的 工作 原理 和 实现 方式 ,防火 墙 分 类 如 下 : 

(1) 从 逻辑 上 讲 , 防 火 墙 可 以 大 体 分 为 主机 防火 墙 和 网 络 防火 墙 两 类 。 

@ 主机 防火 墙 : 针对 于 单个 主机 进行 防护 。 

@ 网 络 防火 墙 : 往往 处 于 网 络 入 口 或 边缘 ,针对 于 网 络 入 口 进行 防护 ,服务 于 防火 
墙 背 后 的 本 地 局 域 网 。 

(2) 从 实现 方式 上 讲 , 防 火 墙 可 以 分 为 硬件 防火 墙 和 软件 防火 墙 。 

@ 硬件 防火 墙 : 在 硬件 级 别 实现 部 分 防火 墙 功 能 , 另 一 部 分 功能 基于 软件 实现 ,性 
能 高 ,成 本 高 。 

@ 软件 防火 墙 : 应 用 软件 处 理 逻 辑 运行 于 通用 硬件 平台 之 上 的 防火 墙 ,性 能 低 , 成 
本 低 。 


2.Iptables 基础 


逻辑 意义 上 的 防火 墙 是 利用 Iptables 定义 的 一 套 规则 (rules) 和 标准 ,用 来 对 数据 包 
( 报 文 ) 进 行 过 滤 ,进出 的 数据 包 要 与 这 些 规则 按 一 定 顺 序 逐 一 进行 匹配 对 照 , 如 果 与 某 条 
规则 匹配 , 则 按照 规则 规定 的 动作 处 理 ; 如 果 数 据 包 与 所 有 的 规则 都 没有 匹配 ,按照 防火 
墙 的 默认 规则 处 理 。 

默认 规则 有 两 种 : 

(1) 默认 所 有 放行 ( 通 , ACCEPT), 按 一 定 条 件 设置 特定 规则 对 特定 的 数据 包 进 
行 堵 。 
(2) 默认 所 有 丢弃 ( 堵 ,DROP) , 按 一 定 条 件 设置 特 定 规则 对 特定 的 数据 包 进 行 通 。 
规则 其 实 就 是 网 络 管理 员 预 定义 的 条 件 , 如 果 数 据 包头 符合 这 样 的 条 件 ,就 这 样 处 理 
这 个 数据 包 , 如 放行 (ACCEPT) .拒绝 (REJECT) 和 丢弃 (DROP) 等 。 规 则 存储 在 内 核 空 
间 的 信息 包 过 滤 表 中 ,规则 一 般 的 定义 为 一 些 条 件 组 合 ,这 些 条 件 一 般 包 括 类 似 源 地 址 、 
目的 地 址 、 传 输 协 议 ( 如 TCP、UDP、ICMP) 和 服务 类 型 (如 HTTP、FTP 和 SMTP) 等 。 
配置 防火 墙 的 主要 工作 就 是 添加 、 修 改 和 删除 这 些 规则 。 


3. 防火 墙 逻 辑 结 构 


为 实现 防火 墙 功 能 ,其 逻辑 结构 设计 如 图 4-28 所 示 ,包括 4 张 表 和 5 个 链 。Iptables 
采用 表 和 链 的 分 层 结构 。 


4. 链 


链 (chains) 是 数据 包 传播 的 路 径 , 每 一 条 链 其 实 就 是 数据 包 可 能 经 过 的 一 个 检查 站 ， 
每 一 条 链 中 可 以 有 一 条 或 数 条 规则 。 当 一 个 数据 包 到 达 一 个 链 时 ,Iptables 就 会 从 链 中 
第 一 条 规则 开始 检查 ,看 该 数据 包 是 否 满足 规则 所 定义 的 条 件 。 如 果 满 足 , 系 统 就 会 
根据 该 条 规则 所 定义 的 方法 处 理 该 数据 包 ; 和 否则 Iptables 将 继续 检查 下 一 条 规则 ,如 果 
该 数据 包 不 符合 链 中 任 一 条 规则 ,Iptables 就 会 根据 该 链 预先 定义 的 默认 规则 来 处 理 数 
据 包 。 
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= | c= | | rs 


第 3 条 规则 


[re 


OUTPUT 链 


图 4-28 ”Iptables 四 表 五 链 逻 辑 结 构 


五 链 是 指 五 个 放置 防火 墙 规则 的 位 置 ,用 于 在 这 五 个 位 置 对 数据 包 进 行 过 滤 。 具 体 
包括 (如 图 4-29 所 示 ) : 

(1) PREROUTING 一 一 对 数据 包 作 路 由 选择 前 应 用 此 链 中 的 规则 (所 有 的 数据 包 
进来 的 时 候 都 先 由 这 个 链 处 理 ) ; 

(2) INPUT 一 一 进来 的 数据 包 应 用 此 规则 链 中 的 策略 ; 

(3) FORWARD 一 一 转发 数据 包 时 应 用 此 规则 链 中 的 策略 ; 

(4) OUTPUT 一 一 外 出 的 数据 包 应 用 此 规则 链 中 的 策略 ; 

(5) POSTROUTING 一 一 对 数据 包 作 路 由 选择 后 应 用 此 链 中 的 规则 (所 有 的 数据 包 
出 来 的 时 候 都 先 由 这 个 链 处 理 ) 。 


5. 数据 包 传输 过 程 


(1) 当 一 个 数据 包 进 入 网 卡 时 , 它 首先 进入 PREROUTING 链 , 内 核 根 据 数据 包 目 
的 IP 判断 是 否 需要 转送 出 去 。 

(2) 如 果 数 据 包 就 是 进入 本 机 的 , 它 就 会 沿 着 图 向 下 移动 ,到 达 INPUT 链 。 数 据 包 
到 了 INPUT 链 后 ,任何 进程 都 会 收 到 它 。 本 机 上 运行 的 程序 可 以 发 送 数 据 包 , 这 些 数据 
包 会 经 过 OUTPUT 链 , 然 后 到 达 POSTROUTING 链 输出 。 

(3) 如 果 数 据 包 是 要 转发 出 去 的 , 且 内 核 允许 转发 ,数据 包 就 会 如 图 4-30 所 示 向 右 
移动 ,经 过 FORWARD 链 , 然 后 到 达 POSTROUTING 链 输出 。 

总 结 上 述 数据 包 传输 过 程 , 共 有 3 种 流向 : 

(1) 进入 本 机 用 户 空间 进程 

PREROUTING—>INPUT 
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Iptables 的 图 解 


用 户 空间 中 的 进程 


一 一 > 访问 本 主机 
一 -六 本 主机 访问 外 网 
一 2 nat， 当 客户 端 请 求 到 达 本 主机 时 ， 网 卡 1 (PREROUTING) 接 收 到 请 求 ， 发 现 目标 IP 地 址 不 是 本 机 的 就 把 报 文 交 给 转发 路 由 
(FORWARD)， 经 过 路 由 转发 准备 经 由 网 卡 2( POSTROUTING)。 但 是 一 般 客户 端的 IP 地 址 都 是 私有 地 址 ， 私 有 地 址 在 互联 网 上 是 不 能 被 转发 
的 。 所 以 当 报 文 要 出 去 的 时 候 ， 网 卡 2( POSTROUTING) 就 会 把 源 IP 地 址 转换 为 本 主机 的 公 网 IP 地 址 ， 这 样 就 可 以 在 访问 外 网 时 被 转发 以 达 
到 访问 互联 网 的 目的 。 

当 发 出 去 的 报 文 得 到 响应 ， 响 应 报 文 在 没 到 达 网 卡 2 之 前 源 IP 是 外 网 响应 的 iP 地 址 , 而 目标 IP 是 本 主机 的 IP 地 址 。 当 响应 报 文 一 进 
到 网 卡 2(POSTROUTING) 就 会 自动 把 报 文 的 目标 IP 地 址 转换 为 客户 端的 I 地 址 ， 如 果 不 立即 改 为 客户 端的 IP 地 址 就 会 由 网 卡 2 直接 通过 
INPUT 进入 用 户 空间 导致 响应 报 文 达 不 到 客户 端 。 而 改 为 目标 后 响应 报 文 就 会 经 过 转发 ， 再 经 过 网 卡 1 出 去 返回 给 客户 端 ， 这 样 就 可 以 完 
成 报 文 的 传送 。 

一 一 一 知 当 客户 端 请 求 到 达 本 主机 时 ， 网 卡 1( PREROUTING) 接 收 到 请 求 ， 发 现 目标 IP 地 址 是 本 机 的 |P， 而 后 继续 检查 它 的 目标 端口 。 如 
果 目 标 端口 被 本 机 上 的 某 个 用 户 进程 注册 使 用 了 , 那 这 个 进程 监听 在 这 个 套 接 字 上 。 如 果 检查 到 的 这 个 端口 的 确 是 主机 的 某 个 进程 在 监听 ， 
那 这 个 报 文 就 会 通过 这 个 套 接 字 经 过 INPUT 进入 用 户 空间 转发 给 对 应 的 进程 ， 所 以 这 个 报 文 就 到 达 本 机 的 内 部 。 

当 用 户 室 间 的 报 文 响应 回 米 时 ， 由 OUTPUT 出 来 注意 : 由 本 机 出 去 的 报 文 无 论 如 何 都 不 会 经 过 转发 ( FORWARD) 。 出 来 后 就 由 经 网 
卡 1( PREROUTING) 出 去 送 达到 目标 客户 端 ， 这 样 就 完成 了 本 次 报 文 传送 。 

一 "一 " 忆 当 本 主机 要 想 与 外 网 通信 时 ， 由 用 户 空间 中 的 某 进 程 向 外 发 送 报 文 ， 首 先 由 经 OUTPUT 出 去 。 我 们 说 过 由 本 机 出 去 的 报 文 是 不 
会 经 过 转发 路 由 的 ， 经 过 网 卡 2( POSTROUTING) 发 现 是 本 机 的 IPp， 也 是 公 网 地 址 ， 直 接 出 去 达到 访问 互联 网 的 目的 。 

当 发 出 的 报 文 响应 回来 时 ， 目 标 IP 地 址 也 是 本 主机 的 IP 地 址 ， 所 以 直接 检查 目标 端口 号 ， 由 经 INPUT 进入 用 户 空间 ， 交 给 监听 在 目 
标 套 接 字 上 的 进程 ， 这 样 就 完成 了 此 次 的 报 文 传送 。 

iptables: 无 论 如 何 要 跟 本 主机 通信 或 访问 本 主机 都 要 经 过 这 5 个 点 中 的 其 中 儿 个 ,我 们 称 为 卡 哨 ( netfilter)。 这 5 个 卡 哨 就 是 iptables 
精心 挑选 的 ， 所 以 在 iptables 中 这 5 个 卡 哨 也 都 是 有 名 称 的 ， 分 别 是 PREROUTING、INPUT、 FORWARD、 QUTPUT、 POSTRQUTING 。 
然而 ， 这 也 仅仅 只 是 卡 哨 ， 没 有 起 到 防御 功能 ， 要 想起 作用 就 得 使 用 iptables 来 为 这 几 个 卡 哨 填充 规则 。 所 以 我 们 又 说 iptables 是 用 来 
写 规 则 的 ， 而 netfitter 是 用 来 实现 规则 的 ， 这 两 者 一 起 工作 就 组 成 了 我 们 熟知 的 防火 墙 
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(2) 经 过 本 机 转发 


图 4-30 数据 包 传输 过 程 


PREROUTING—>FORWARD—>POSTROUTING 
(3) 由 本 机 用 户 空间 进程 发 出 
OUTPUT—>POSTROUTING 


6. 表 


表 (tables) 是 提供 特定 的 功能 的 规则 容器 。Iptables 内 置 了 如 下 4 个 表 。 
(1) filter 表 , 用 于 实现 包 过 滤 ,包括 INPUT、FORWARD、OUTPUT 三 个 链 , 对 应 的 


内 核 模 块 为 iptables_filter。 


(2) nat 表 , 网 络 地 址 转换 ,包括 PREROUTING、POSTROUTING、OUTPUT 三 个 


链 , 对 应 内 核 模块 为 iptable_nat。 


(3) mangle 表 , 用 于 包 重 构 ( 修 改 ) 数 据 包 的 服务 类 型 `TTL, 并 且 可 以 配置 路 由 实现 
QOS, 包 括 PREROUTING、POSTROUTING INPUT、OUTPUT 、FORWARD 5 个 链 ， 


对 应 内 核 模块 为 iptable_mangle。 


(4) raw 表 , 用 于 数据 跟踪 处 理 , 决 定数 据 包 是 否 被 状态 跟踪 机 制 处 理 , 包 括 
OUTPUT、PREROUTING 两 个 链 , 对 应 内 核 模块 为 iptable_raw。 
Iptables 采用 表 和 链 的 分 层 结构 ,图 4-30 罗列 了 这 4 张 表 和 5 个 链 。 


7. Iptables 防火 墙 中 表 和 和 链 的 优先 顺序 


(1) 规则 表 之 间 的 优先 顺序 : 


Raw- 一 mangle->nat->filter 


(2) 规则 链 之 间 的 优先 顺序 : 


第 一 种 情况 : 入 站 数据 流向 


从 外 界 到 达 防 火 墙 的 数据 包 , 先 被 PREROUTING 规则 链 处 理 ( 是 否 修改 数据 包 地 
址 等 ) ,之 后 会 进行 路 由 选择 (判断 该 数据 包 应 该 发 往 何 处 ) ,如 果 数 据 包 的 目标 主机 是 防 
火 墙 本 机 (例如 Internet 用 户 访 问 防 火 墙 主机 中 的 Web 服务 器 的 数据 包 ) ,那么 内 核 将 其 
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传 给 INPUT 链 进行 处 理 ( 决 定 是 否 允 许 通过 等 ) ,通过 以 后 再 交 给 系统 上 层 的 应 用 程序 
(例如 Apache 服务 器 ) 进 行 响应 。 

第 二 种 情况 : 转发 数据 流向 

来 自 外 界 的 数据 包 到 达 防 火 墙 后 ,首先 被 PREROUTING 规则 链 处 理 ,之 后 会 进行 
路 由 选择 ,如 果 数 据 包 的 目标 地 址 是 其 他 外 部 地 址 (例如 局 域 网 用 户 通 过 网 关 访 问 QQ 站 
点 的 数据 包 ), 则 内 核 将 其 传递 给 FORWARD 链 进 行 处 理 ( 是 否 转发 或 拦截 ) ,然后 再 交 
给 POSTROUTING 规则 链 ( 是 否 修改 数据 包 的 地 址 等 ) 进 行 处 理 。 

第 三 种 情况 : 出 站 数据 流向 

防火 墙 本 机 向 外 部 地 址 发 送 的 数据 包 ( 例 如 在 防火 墙 主 机 中 测试 公 网 DNS 服务 器 
时 ) ,首先 被 OUTPUT 规则 链 处 理 , 之 后 进行 路 由 选择 ,然后 传递 给 POSTROUTING 规 
则 链 ( 是 否 修 改 数据 包 的 地 址 等 ) 进 行 处 理 ,处 理 流程 如 图 4-31 所 示 。 

一 < 网络 A， 路 | 


ee 本 机 的 应 用 进程 | 一 | 中 | 惑 
人 择 


AQ - 站 数据 流向 
(页 
= 


raw: PREROUTING 


Es 
mangle: PREROUTING 门 节 选 节 芒 
择 filter: FORWARD nat: POSTROUTING 
t: PREROUTING 
[se Prerourmo | 和 


图 4-31 数据 包 处 理 流程 


4.4.2 Iptables 防火 墙 的 管理 

用 户 SHELL 中 配置 和 管理 防火 墙 规则 的 命令 是 iptables。 

1，iptables 的 基本 语法 格式 

iptables [-t 表 名 ] 命令 选项 [ 链 名 ] [条 件 匹配 ] [-j 目标 动作 或 跳 转 ], 其 图 形 化 结 
构 如 图 4-32 所 示 。 

【示例 】 

iptables - t filter -A INPUT -p tcp 一 dport 22 -s 202.13.0.0/16 -j ACCEPT 


其 中 ， 

中 表 名 用 于 指定 iptables 命令 所 操作 的 表 中 的 哪个 表 , 如 示例 中 的 filter 表 , 省 略 默 
认为 filter 表 ; 

四 链 名 用 于 指定 iptables 命令 所 操作 表 中 的 哪个 链 , 如 上 例 中 filter 表 中 的 
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图 4-32 iptables 命令 格式 图 示 


INPUT 链 ; 

@ 命令 选项 用 于 指定 管理 iptables 规则 的 方式 ,例如 示例 中 增加 (CA) ,此 外 还 有 插入 
OD 删除 (D) 查看 (L) 等 ; 

@ 条 件 匹 配 用 于 指定 对 符合 什么 样 条 件 的 数据 包 进 行 处 理 , 如 示例 的 -p tcp 一 dport 
22 -s 202. 13. 0. 0/16 是 按 TCP 协议 中 , 源 地 址 来 自 202. 13 网 段 .目标 为 22 号 端口 的 数 
据 包 ,其 他 的 条 件 选项 如 图 4-33 所 示 ; 


a 


newokname 


Hostname 
* Subnet (192 168.0.0/24 ; 192.168.0 0/255.255.255.0) 
*» IP address 


Service， 本 
* Port number 
* Port range (1024:65535) i 


图 4-33 条 件 匹 配 


名 目标 动作 或 跳 转 用 于 指定 对 符合 条 件 的 数据 包 的 处 理 方式 ,例如 允许 通过 、 拒 绝 、 
丢弃 、 跳 转 (JUMP) 给 其 他 链 处 理 、 记 录 日 志 (LOG) 等 。 

具体 处 理 动 作 包 括 : ACCEPT、 REJECT、DROP、 REDIRECT、MASQUERADE、 
LOG.、DNAT.SNAT.MIRROR.QUEUE.RETURN MARK 。 

ACCEPT: 将 数据 包 放 行 , 进 行 完 此 处 理 动作 后 ,将 不 再 比 对 其 他 规则 ,直接 跳 往 下 
一 个 链 (natostrouting) 。 

REJECT: 拦阻 该 数据 包 , 并 传送 数据 包 通知 给 对 方 ,可 以 传送 的 数据 包 有 几 个 选 
择 : icmp-net-unreachable、icmp-host-unreachable、icmp-port-unreachable、icmp-proto- 
unreachable 、icmp-net-prohibited 、icmp-host-pro-hibited 、icmp-admin-prohibited 、ICMP 
echo-reply 或 tcp-reset (这 个 数据 包 会 要 求 对 方 关闭 联机 ), 默 认 值 为 icmp-port- 
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unreachable。 进 行 完 此 处 理 动作 后 ,将 不 再 比 对 其 他 规则 ,直接 中 断 过 滤 程 序 。 
示例 代码 : 


iptables -A FORWARD -p TCP 一 dport 22 -j REJECT 一 reject-with tcp-reset 


DROP: 丢弃 数据 包 不 予 处 理 , 进 行 完 此 处 理 动作 后 ,将 不 再 比 对 其 他 规则 ,直接 中 
断 过 滤 程 序 。 

REDIRECT: 将 数据 包 重 新 导向 到 另 一 个 端口 (PNAT) ,进行 完 此 处 理 动作 后 ,将 会 
继续 比 对 其 他 规则 。 这 个 功能 可 以 用 来 实 作 通 透 式 porxy 或 用 来 保护 Web 服务 器 。 

示例 代码 : 


iptables -t nat -A PREROUTING -p tcp 一 dport 80 -]j REDIRECT 一 上 to-ports 8080 


MASQUERADE: 改写 数据 包 来 源 IP 为 防火 墙 NIC IP, 可 以 指定 port 对 应 的 范 
围 , 进 行 完 此 处 理 动作 后 ,直接 跳 往 下 一 个 规则 (mangleostrouting)。 这 个 功能 与 SNAT 
略 有 不 同 , 当 进行 IP 伪装 时 ,不 需 指 定 要 伪装 成 哪个 IP,IP 会 从 网 卡 直接 读 , 当 使 用 拨 
号 连 线 时 ,IP 通常 是 由 ISP 公司 的 DHCP 服务 器 指派 的 ,这 个 时 候 MASQUERADE 特 
别 有 用 。 

示例 代码 : 

iptables -t nat -A POSTROUTING -p TCP -j MASQUERADE —to-ports 1024-31000 

LOG: 将 符合 条 件 的 报 文 的 相关 信息 记录 到 日 志 中 ,但 当前 报 文 具体 是 被 接受 ,还 是 
被 拒绝 ,都 由 后 面 的 规则 控制 。 换 名 话说 ,LOG 动作 只 负责 记录 匹配 到 的 报 文 的 相关 信 
息 , 不 负责 对 报 文 的 其 他 处 理 ,如 果 想 要 对 报 文 进 行进 一 步 的 处 理 ,可 以 在 之 后 设置 具体 
规则 ,进行 进一步 的 处 理 。 进 行 完 此 处 理 动作 后 ,将 会 继续 比 对 其 规则 。 系 统 默认 将 数据 
包 相 关 信息 纪 录 在 /var/log/messgae 中 ,也 可 以 将 相关 信息 记录 在 指定 的 文件 中 ,以 防 
止 iptables 的 相关 信息 与 其 他 日 志 信 息 相 混淆 ,修改 /etc/rsyslog. conf 文件 (或 者 /etc/ 
syslog. conf) ,在 rsyslog 配置 文件 中 添加 如 下 配置 kern. warning /var/log/iptables. log 
即 可 将 信息 记录 到 /var/log/iptables. log 中 ,详细 位 置 请 查阅 /etc/syslog. conf 配置 文 
件 。 完 成 上 述 配置 后 ,重启 rsyslog 服务 (或 者 syslogd) 。 


# service rsyslog restart 


LOG 动作 的 扩展 选项 如 下 。 

一 log-level 选项 可 以 指定 记录 日 志 的 日 志 级 别 ,可 用 级 别 有 emerg,alert, crit,error， 
warning, notice,info, debug。 

一 log-prefix 选项 可 以 给 记录 到 的 相关 信息 添加 标签 之 类 的 信息 ,以 便 区 分 各 种 记录 
到 的 报 文 信息 ,方便 在 分 析 时 进行 过 滤 。 它 对 应 的 值 不 能 超过 29 个 字符 。 

示例 代码 : 

iptables -A INPUT -p tcp -j LOG 一 log-prefix "INPUT packets" 


DNAT: 改写 数据 包 目 的 地 IP 为 某 特定 卫 或 了 P 范围 ,可 以 指定 port 对 应 的 范围 ， 
进行 完 此 处 理 动作 后 ,将 会 直接 跳 往 下 一 个 规则 (filter:input 或 filter:forward) 。 
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示例 代码 : 


iptables -t nat -A PREROUTING -p tcp -d 15.45.23.67 一 dport 80-j DNAT —to-destination 192.168. 
1.1-192.168.1.10:80-100 


SNAT: 改写 数据 包 来 源 IP 为 某 特定 IP 或 IP 范 围 ,可 以 指定 port 对 应 的 范围 , 进 
行 完 此 处 理 动作 后 ,将 直接 跳 往 下 一 个 规则 (mangleostrouting) 。 
示例 代码 : 


iptables -t nat -A POSTROUTING -p tcp-o eth0 -j SNRT —to-source 194.236.50.155-194.236.50.160: 
1024-32000 


MIRROR: 镜 射 数据 包 , 也 就 是 将 来 源 IP 与 目的 地 IP 对 调 后 ,将 数据 包 送 回 ,进行 
完 此 处 理 动 作 后 ,将 会 中 断 过 滤 程 序 。 

QUEUE: 中 断 过 滤 程 序 ,将 数据 包 放 和 队列, 交 给 其 他 程序 处 理 。 透 过 自行 开发 的 
处 理 程序 ,可 以 进行 其 他 应 用 ,例如 : 计算 联机 费 等 。 

RETURN: 结束 在 目前 规则 链 中 的 过 滤 程 序 , 返 回 主 规则 链 继续 过 滤 , 如 果 把 自 
定义 规则 链 看 成 是 一 个 子 程序 ,那么 这 个 动作 就 相当 于 提早 结束 子 程序 并 返回 到 主 程 
序 中 。 

MARK: 将 数据 包 标 上 某 个 MARK 值 为 一 个 无 符号 的 整数 ,以 便 提供 作为 后 续 过 
滤 的 条 件 判断 依据 ,进行 完 此 处 理 动作 后 ,将 会 继续 比 对 其 他 规则 。 

示例 代码 ， 


iptables -t mangle -A PREROUTING -p tcp 一 dport 22 -j] MARK 一 set-mark 2 


TOS: 用 来 设置 IP 头 部 中 的 Type Of Service 字段 。 
TTL: 用 于 修改 IP 头 部 中 Time To Live 字段 的 值 。 


2. iptables 命令 的 管理 控制 


1) iptables 的 管理 

iptables 不 是 服务 ,是 建立 在 内 核 框 架 上 的 ,其 定义 的 规则 即时 生效 。 但 有 服务 脚 
本 ,服务 脚本 的 主要 作用 在 于 管理 保存 的 规则 。 

@ service iptables start 装载 iptables/netfilter 相关 的 内 核 模块 ; 

@ service iptables stop 移 除 iptables/netfilter 相关 的 内 核 模 块 ; 

@ service iptables status 查看 iptables 状态 。 

iptables/netfilter 相关 的 内 核 模块 加 载 后 ,可 通过 lsmod 命令 查看 iptables 对 应 的 模 
块 ,主要 包括 iptables_nat iptables_filter iptables_mangle iptables_raw ip_nat ip_ 
conntrack 等 。 

2) 规则 备份 与 恢复 

iptables 命令 生成 的 规则 临时 被 保存 , 供 内 核 netfilter 模块 使 用 。 当 系统 重新 启动 
后 ,iptables 命令 生成 的 规则 被 清空 ,自动 加 载 由 /ect/sysconfig/iptables 定义 默认 规则 。 
为 了 使 iptables 命令 生成 的 规则 重启 后 继续 生效 ,可 以 对 规则 进行 备份 以 备 恢复 。 
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”Service iptables save 保存 到 文件 /ect/sysconfig/iptables 中 , 供 service iptables 
Start 时 读 取 ; 
= 也 可 以 用 iptables-save 二 /file/to/save 保存 到 指定 文件 中 ; 
a 使 用 iptables-restore 二 /file/from/saved file 恢复 由 iptables-save 命令 保存 的 
规则 。 
centos7 中 已 经 不 再 使 用 init 风格 的 脚本 启动 服务 ,而 是 使 用 unit 文件 ,所 以 在 
centos7 中 已 经 不 能 再 使 用 类 似 service iptables start 这 样 的 命令 了 ,所 以 service iptables 
save 也 无 法 执行 。 同 时 ,在 centos7 中 使 用 firewall 替代 了 原来 的 iptables service, 不 过 
不 用 担心 ,只 要 通过 yum 源 安装 iptables 与 iptables-services 即 可 (iptables 一 般 会 被 默 
认 安 装 ,但 是 iptables-services 在 centos7 中 一 般 不 会 被 默认 安装 ) ,在 centos7 中 安装 完 
iptables-services 后 , 即 可 像 centos6 中 一 样 ,通过 service iptables save 命令 保存 规则 了 ， 
规则 同样 保存 在 /etc/sysconfig/iptables 文件 中 。 
centos7 中 配置 iptables-service 的 步骤 如 下 。 
QO@ 配置 好 yum 源 以 后 安装 iptables-service 


# yum install -y iptables-services 

@ 停止 firewalld 

# systemctl stop firewalld 

@ 停止 firewalld 自动 启动 

# systemctl disable firewalld 

@ ptables 

# systemctl start iptables 

GO) iptables 设置 为 开机 自动 启动 ,以 后 即 可 通过 iptables-service 控制 iptables 服务 

# systemctl enable iptables 

上 述 配置 过 程 只 需 一 次 ,以 后 即 可 在 centos7 中 方便 地 使 用 service iptables save 命 
令 保存 iptables 规则 了 。 

3. iptables 命令 使 用 总 体 规范 


使 用 iptables 命令 定义 规则 时 ,遵循 一 定 的 规范 ,具体 包括 以 下 几 方 面 。 

1) 书写 规范 

与 链 有 关 都 是 大 写 ,动作 是 大 写 ,其 他 的 参数 都 是 小 写 。 具 体 在 书写 防火 墙 规则 时 应 
该 遵循 以 下 规范 : 

所 有 链 名 必须 大 写 ,如 INPUT/OUTPUT/FORWARD /PREROUTING/POSTROUTING。 

所 有 表 名 必须 小 写 ,如 filter/nat/mangle。 

所 有 动作 必须 大 写 , 如 ACCEPT/DROP/SNAT/DNAT/MASQUERADE。 

所 有 匹配 必须 小 写 , 如 -s/-d/-m 二 module_name 记 /-p。 
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2) 设计 规范 

同一 个 链 可 放置 多 个 规则 , 自 上 而 下 逐一 检查 各 规则 ,一旦 某 条 规则 的 条 件 被 匹配 则 
按照 该 规则 规定 的 动作 执行 ,一 般 条 件 范围 大 的 容易 被 匹配 。 

无 关联 的 规则 ,一 般 大 范围 放 在 前 面 ,小 范围 放 在 后 面 ,减少 检查 次 数 ;使 用 频率 高 的 
规则 放 在 前 面 ,如 http 比 https 范围 大 ,使 用 频率 高 。 

有 关联 的 规则 ,一般 相反 。 如 允许 1.0.0.0 访问 SSH, 但 拒绝 1.0. 0. 2 的 访问 ,得 将 
拒绝 1.0.0.2 的 规则 写 在 前 面 。 


4.5 ”TCP/IP 数据 包 结 构 


iptables 主要 对 TCP/IP 的 数据 包 ( 报 文 ) 进 行 处 理 , 包 括 对 报头 进行 分 析 , 与 规则 设 
定 的 条 件 进 行 匹配 ,以 确定 数据 包 的 流向 。 为 此 ,本 节 介 绍 TCP/IP 数据 包 结构 ,为 
iptables 书写 规则 提供 依据 。 


4.5.1 网 络 分 层 结构 
1. ISO/OSI 参考 模型 


OSICOpen System Interconnect) 即 开放 式 系统 互联 。 一 般 都 叫 OSI 参考 模型 ,是 
ISO( 国 际 标准 化 组 织 ) 在 1985 年 研究 的 网 络 互联 模型 。 该 体系 结构 标准 定义 了 网 络 互 
连 的 7 层 框架 ,包括 物理 层 、 数 据 链 路 层 、 网 络 层 、 传 输 层 、 会 话 层 、 表 示 层 和 应 用 层 ,如 
图 4-34 所 示 。 


二 报 文 流 | 


图 4-34 ISO/OSI 参 考 模型 


(1) 网 络 中 各 节点 都 有 相同 的 层次 ; 
(2) 不 同 节点 的 同等 层 具有 相同 的 功能 ; 
(3) 同一 节点 内 相 邻 层 之 间 通 过 接口 通信 ; 
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(4) 每 一 层 使 用 下 层 提供 的 服务 ,并 向 其 上 层 提 供 服务 
(5) 不 同 节点 的 同等 层 按照 协议 实现 对 等 层 之 间 的 通信 ; 
(6) 根据 功能 需要 进行 分 层 , 每 层 应 当 实现 定义 明确 的 功能 。 


2. TCP/IP 参考 模型 

OSI 参考 模 型 推出 得 较 晚 并 且 过 于 复杂 .实际 应 用 意义 不 是 很 大 ,但 的 确 对 于 理解 网 
络 协议 内 部 的 运作 很 有 帮助 ,也 为 我 们 学 习 网 络 协 议 提 供 了 一 个 很 好 的 参考 ,如 图 4-35 
所 示 。 在 现实 网 络 世 界 里 ,TCP/IP 协议 获得 了 更 为 广泛 的 应 用 ,已 经 成 为 事实 标准 ,如 
图 4-36 所 示 。 


OSI 参考 模型 TCP/IP 


| 

1 
| | 应 用 程序 | 。 | 应 用 程序 | 。 | 应 用 程序 | 应 用 层 
| 1 = 
hn 1 

运输 屋 
| 
ICMP | IP Fl IGMP | 网 络 层 
LL ] 
1 | a 1 
! ARP 上 硬件 接口 -一 一 RARP | 链 路 层 
人 和 J 
传输 介质 


图 4-36 TCP/IP 协议 模型 


3. 数据 封装 
数据 封装 是 指 将 协议 数据 单元 (PDU) 封 装 在 一 组 协议 头 和 尾 中 的 过 程 。 根 据 TCP/ 
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IP 协议 的 分 层 结构 , 当 需 要 传送 用 户 的 数据 (DATA) 时 ,数据 首先 通过 应 用 层 的 接口 进 
和 人 应 用 层 。 在 应 用 层 , 用 户 的 数据 被 加 上 应 用 层 的 报头 (Application Header,AH) ,形成 
应 用 层 协议 数据 单元 (Protocol Data Unit, PDU) ,然后 被 递交 到 下 一 层 一 一 传输 层 。 传 
输 层 并 不 "关心 ”上 层 一 一 应 用 层 的 数据 格式 而 是 把 整个 应 用 层 递交 的 数据 包 看 成 是 一 个 
整体 进行 封装 , 即 加 上 表示 层 的 报头 (Presentation Header,PH)。 然 后 ,递交 到 下 层 一 一 
网 络 层 。 网 络 层 、 链 路 层 也 都 要 分 别 给 上 层 递 交 下 来 的 数据 加 上 自己 的 报头 ,形成 最 终 的 
一 帧 数据 ,如 图 4-37 所 示 。 


[Da] 
Appl 首 部 | 用 户 数据 | 
TCP 首 部 应 用 数据 。 ”| 
IP 首 部 |TCP 首 部 应 用 数据 
以 太 网 尾部 | IP 首 部 | TCP 首 部 应 用 数据 以 太 网 尾部 
图 4-37 数据 封装 


4.5.2 IP 首部 结构 
RFC791 定义 的 IP 数据 报 文 首部 结构 如 图 4-38 所 示 ,前 20 字 节 为 固定 长 度 。 


位 0 4 8 16 19 24 31 
版 本 | 首部 长 度 区 分 服务 | 总 长 度 
标识 | 标志 | 片 偏 移 
说 人 生存 时 间 协议 | 首部 检验 和 
部 源 地 址 
目的 地 址 
可 变 部 分 “ 工 可 选 字段 (长 度 可 变 ) 填充 I 
数据 部 分 
首部 
人 IP 数 据 报 一 
发 送 在 前 
图 4-38 IP 数据 报 文 首部 结构 
其 定义 如 下 : 


/x* IP 头 定义 , 共 20 个 字 节 * / 

typedef struct IP HEADER 

{ 
char m cVersionAndHeaderLen; // 版 本 信息 (前 4 位 ), 头 长 度 (后 4 位 ) 
char m cTypeOfService; // 服 务 类 型 8 位 
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short m sTotalLenOfPACKet; // 数 据 包 长 度 
short m spPACKetID; // 数 据 包 标 识 
short m ssliceinfo; // 分 片 使 用 
char m cTTL; // 存 活 时 间 
char m cTypeOfProtocol; // 协 议 类 型 
short m sCheckSum; // 校 验 和 
unsigned int m uiSourIp; // 源 IP 
unsigned int m uiDestIp; // 目 的 IP 


} _ attribute ((pACKed))IP HEADER, * PIP HEADER; 
对 应 各 部 分 含义 如 下 。 
1. 第 一 个 4 字 节 (第 一 行 ) 


(1) 版 本 号 (Version) ,4 位 ;用 于 标识 IP 协议 版 本 ,IPv4 是 0100,IPv6 是 0110, 也 就 
是 二 进 制 的 4 和 6。 

(2) 首部 长 度 (Internet Header Length) ,4 位 ;用 于 标识 首部 的 长 度 , 单 位 为 4 字 
季 , 所 以 首部 长 度 最 大 值 为 : (2^4 一 1) * 4 一 60 字 节 ,但 一 般 只 推荐 使 用 20 字 节 的 固 
定 长 度 。 

(3) 服务 类 型 (Type Of Service) ,8 位 ;用 于 标识 IP 包 的 优先 级 ,但 现在 并 未 使 用 。 

(4) 总 长 度 (Total Length),16 位 ;标识 IP 数据 报 的 总 长 度 , 最 大 为 : 2^16 一 1= 
65535 字 节 。 


2. 第 二 个 4 字 节 


(1) 标识 (Identification) ,16 位 ;用 于 标识 IP 数据 报 ,如 果 因 为 数据 链 路 层 帧 数据 段 
长 度 限制 (MTU ,支持 的 最 大 传输 单元 ) ,IP 数据 报 需要 进行 分 片 发 送 , 则 每 个 分 片 的 IP 
数据 报 标识 都 是 一 致 的 。 

(2) 标志 (Flag),3 位 ,但 目前 只 有 两 位 有 意义 ;最 低位 为 MF,MF=1 代表 后 面 还 有 
分 片 的 数据 报 , MF 二 0 代表 当前 数据 报 已 是 最 后 的 数据 报 。 次 低位 为 DF,DF=1 代表 不 
能 分 片 ,DF=0 代表 可 以 分 片 。 

(3) 片 偏 移 (Fragment Offset) ,13 位 ;代表 某 个 分 片 在 原始 数据 中 的 相对 位 置 。 


3. 第 三 个 4 字 节 


(1) 生存 时 间 (TTL) ,8 位 ;以 前 代表 IP 数据 报 最 大 的 生存 时 间 ,现在 标识 IP 数据 报 
可 以 经 过 的 路 由 器 数 。 

(2) 协议 (Protocol) ,8 位 ;代表 上 层 传输 层 协议 的 类 型 ,1 代表 ICMP,2 代表 IGMP， 
6 代表 TCP,17 代表 UDP。 

(3) 校 验 和 (Header Checksum) ,16 位 ;用 于 验证 数据 完整 性 ,计算 方法 为 ,首先 将 校 
验 和 位 置 0, 然 后 将 每 16 位 二 进 制 反 码 求 和 即 为 校 验 和 ,最 后 写 入 校 验 和 位 置 。 
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4. 第 四 个 4 字 节 : 源 IP 地址 


5. 第 五 个 4 字 节 : 目的 IP 地址 


4.5.3 TCP 首部 结构 
RFC793 定义 的 TCP 报 文 首部 结构 如 图 4-39 所 示 ,前 20 字 节 为 固定 长 度 。 


到 32 位 
位 0 8 16 4 31 


| 1 | Wl 


确认 号 
本 | wa 和 
检验 和 


选项 (长 度 可 变 ) 


图 4-39 ”TCP 报 文 首部 结构 
其 定义 如 下 


/x TCP 头 定义 , 共 20 字 节 * / 
typedef struct _TCP HEADER 
{ 


short m _sSourPort; // 源 端口 号 16b 
Short m sDestPort; // 目 的 端口 号 16b 
unsigned int m uiSequNum; // 序 列 号 32b 


unsigned int m uiACKnowledgeNum; 。 // 确 认 号 32b 
short m_sHeaderLenAndFlag; // 前 4 位 : TcP 头 长 度 ; 中 6 位 : 保留 ;后 6 位 : 标志 位 


short m sWindowSize; // 窗 口 大 小 16b 

short m_sCheckSumy // 校 验 和 1l6b 

short m surgentPointer; // 紧 急 数据 偏 移 量 16b 
}_ attribute ((pACKed))TCP HEADER, * PTCP HEADER; 
对 应 各 部 分 含义 如 下 。 
1. 第 一 个 4 字 节 


(1) 源 端 口 ,16 位 ;发 送 数据 的 源 进 程 端 口 。 
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(2) 目的 端口 ,16 位 ;接收 数据 的 进程 端口 。 
2. 第 二 个 4 字 节 与 第 三 个 4 字 节 


(1) 序号 ,32 位 ;代表 当前 TCP 数据 段 第 一 个 字 节 占 整个 字 节 流 的 相对 位 置 ; 
(2) 确认 号 ,32 位 ;代表 接收 端 希 望 接收 的 数据 序号 ,为 上 次 接收 到 数据 报 的 序号 
, 当 ACK 标志 位 为 1 时 才 生 效 。 


十 


3. 第 四 个 4 字 节 


(1) 数据 偏 移 ,4 位 ;实际 代表 TCP 首部 长 度 ,最 大 为 60 字 节 。 

(2) 6 个 标志 位 ,每 个 标志 位 1 位 。 

SYN ,为 同步 标志 ,用 于 数据 同步 ; 

ACK ,为 确认 序号 ,ACK 王 1 时 确认 号 才 有 效 ; 

FIN ,为 结束 序号 ,用 于 发 送 端 提出 断 开 连 接 ; 

URG ,为 紧急 序号 ,URG=1 是 紧急 指针 有 效 ; 

PSH ,指示 接收 方 立即 将 数据 提交 给 应 用 层 , 而 不 是 等 待 缓冲 区 满 ; 
RST, 重 置 连接 。 

(3) 窗口 值 ,16 位 ;标识 接收 方 可 接受 的 数据 字 节 数 。 


4. 第 五 个 4 字 节 


(1) 校 验 和 ,16 位 ;用 于 检验 数据 完整 性 。 

(2) 紧急 指针 ,16 位 ;只 有 当 URG 标识 位 为 1 时 ,紧急 指针 才 有 效 。 紧 急 指 针 的 值 
与 序号 的 相 加 值 为 紧急 数据 的 最 后 一 个 字 节 位 置 。 用 于 发 送 紧 急 数据 。 

TCP 头 中 的 选项 ,每 个 选项 的 开始 都 是 1 个 字 节 的 kind 字段 ,说 明 选 项 的 类 型 ， 
Kind 为 0/1 的 时 候 , 选 项 只 占 1 个 字 节 ,其 他 选项 在 kind 字段 后 面 还 有 len 字 节 ,说 明 总 
长 度 包括 kind 和 len 的 字 节 ,如 图 4-40 所 示 。 

选项 表 结 束 ， 国 时 晤 
1 字 节 
无 操作 : i 和 


| 
jen 人 表示 的 是 束 个 长 度 一 


到 信 报 义 从 肛 


最 大 报 文 段 长 度 : 


窗口 扩大 因子 : 


时 间 截 


4-40 TCP 头 中 的 选项 


118 基于 Linux 的 主机 运行 维护 


KIND=1 表示 无 操作 NOP, 无 后 面 的 部 分 ; 

KIND==2 表示 maximum segment, 后面 的 LENGTH 就 是 maximum segment 选项 
的 长 度 (以 字 节 为 单位 ,1 十 1 十 内 容 部 分 长 度 ); 

KIND=3 表示 windows scale, 后 面 的 LENGTH 就 是 windows scale 选项 的 长 度 
(以 字 节 为 单位 ,1 十 1 十 内 容 部 分 长 度 ); 

KIND==4 表示 SACK permitted,LENGTH 为 2, 没 有 内 容 部 分 ; 

KIND=5 表示 这 是 一 个 SACK 包 ,LENGTH 为 2, 没有 内 容 部 分 ; 

KIND=8 表示 时 间 截 ,LENGTH 为 10, 含 8 个 字 节 的 时 间 戳 。 


/* TCP 头 中 的 选项 定义 * / 
typedef struct _TCP OPTIONS 
char m ckind; 
char m cLength; 
char m _cContext [32]; 
}_attribute _((pACKed))TCP OPTIONS, * PTCP_OPTIONS; 


4.5.4 UDP 首部 


RFC768 定义 的 UDP 报 文 首部 结构 如 图 4-41 所 示 ,前 20 个 字 节 为 固定 长 度 。 


字 节 4 4 下 2 
| 源 IP 地 址 ”| 目的 iP 地 址 | 0 | 17 lupP 长 和 
字 P2 2 4 2 2 


图 4-41 UDP 报 文 首部 结构 


其 定义 如 下 : 
/* UDP 头 定义 , 共 8 个 字 节 * / 


typedef struct UDP HEADER 
{ 


unsigned short m usSourPort; // 源 端口 号 16b 
unsigned short m usDestPort; // 目 的 端口 号 16b 
unsigned short m usLength; // 数 据 包 长 度 16b 
unsigned short m usCheckSum; // 校 验 和 16b 


}_attribute _((pACKed))UDP HEADER, * PUDP HEADER; 


对 应 各 部 分 含义 : 
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@ 源 端口 : 源 端口 号 。 在 需要 对 方 回信 时 选用 。 不 需要 时 可 全 用 0; 
@ 目的 端口 : 目的 端口 号 。 这 在 终点 交付 报 文 时 必须 要 使 用 到 ; 

@ 长 度 : UDP 用 户 数 据 报 的 长 度 ,其 最 小 值 是 8( 仅 有 首部 ); 

@ 检验 和 : 检测 UDP 用 户 数据 报 在 传输 中 是 否 有 错 。 有 错 就 丢弃 。 


4.5.5 ”TCP 连接 的 建立 与 断 开 


TCP 是 面向 连接 的 。 建 立 TCP 连接 需要 三 次 握手 ,而 断 开 连接 则 需要 四 次 断 开 。 
整个 过 程 如 图 4-42 所 示 ,假定 建立 连接 时 有 两 个 序列 ,客户 端 发 送 X, 服 务 器 发 送 Y。 


ED “ES 
> kh TCP 连 接 和 
一 >» 
> \ 互联 网 
互联 网 
客户 端 服务 器 端 
下 连 
-二 | 六 
SS EE ; 
a eR [ER | | 芭 
= His 
| “古本 ------ | 贡 
ES | 二 
EDA - | 
ER pe = hr 
本 | 提 
oe 一 一 一 -各 1 
A 输 
一 一 一 一 1 
__ EPA ! 昨 
oo 1 
- + 
机 本 1 
EIN | 攻 
一 -一 二 二 1 释 
i 1 放 
- 
| ma | i 
a | 
和 LAST-ACK 1 握 
"XE | 手 
seis 1 
i [en 于 


4-42 ”TCP 连接 的 建立 与 断 开 过 程 
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1. 三 次 握手 工作 流程 


假定 客户 机 A 运行 的 是 TCP 客户 程序 ,服务 器 B 运行 的 是 TCP 服务 器 程序 。 最 初 
两 端的 TCP 进程 都 处 于 CLOSED 状态 。 图 中 在 主机 下 面 的 是 TCP 进程 所 处 的 状态 。 
A 是 主动 打开 连接 ,B 是 被 动 打开 连接 。B 的 TCP 服务 器 进程 先 创建 传输 控制 模块 
TCB, 准 备 接受 客户 进程 的 连接 请 求 , 然 后 服务 器 进程 就 处 于 LISTEN( 监 听 ) 状 态 ,等待 
客户 的 连接 请 求 。 

(1) 首先 A 的 TCP 客户 进程 向 B 发 出 连接 请 求 报 文 段 ,这 时 首部 中 的 同步 位 
SYN==1, 同 时 选择 一 个 初始 序号 seq 二 x。TCP 规定 ,SYN 报 文 段 ( 即 SYN=1 的 报 文 
段 ) 不 能 携带 数据 ,但 要 消耗 掉 一 个 序号 。 这 时 ,A 的 客户 进程 就 进入 SYN-SENT( 同 步 
已 发 送 ) 状 态 。 

(2) B 收 到 连接 请 求 报 文 段 后 ,向 A 发 送 确认 。 在 确认 报 文 段 中 把 SYN 和 ACK 位 
都 置 为 1 ,确认 号 是 ACK 王 x 十 1, 同 时 也 为 自己 选择 一 个 初始 序号 seq=y。 请 注意 ,这 个 
报 文 段 也 不 能 携带 数据 ,但 同样 要 消耗 掉 一 个 序号 。 这 时 B 的 TCP 服务 器 进程 就 进入 
SYN-RCVD( 同 步 已 收 到 ) 状 态 。 

(3) A 的 TCP 客户 进程 收 到 B 的 确认 后 ,还 要 向 B 给 出 确认 。 确 认 报 文 段 的 ACK 
置 为 1, 确认 号 ACK 一 y 十 1, 而 自己 的 序号 seq 二 x 十 1。 这 时 ,TCP 连接 已 经 建立 ,A 进入 
ESTABLISHED( 已 建立 连接 ) 状 态 , 当 B 收 到 A 的 确认 后 ,也 会 进入 ESTABLISHED 

以 上 给 出 的 连接 建立 过 程 就 是 常 说 的 TCP 三 次 握手 。 举 个 打 电 话 的 例子 : 

A: 你 好 我 是 A, 你 听 得 到 我 在 说 话 吗 ? 

B: 听 到 了 ,我 是 B, 你 听 到 我 在 说 话 吗 ? 

A: 嗯 , 听 到 了 。 

建立 连接 ,开始 聊天 。 

为 什么 A 还 要 发 送 一 次 确认 呢 ? 这 主要 是 为 了 防止 已 失效 的 连接 请 求 报 文 段 突然 
又 传送 到 了 B, 因 而 产生 错误 。 

假定 A 发 出 的 某 一 个 连接 请 求 报 文 段 在 传输 的 过 程 中 并 没有 丢失 ,而 是 在 某 个 网 络 
节点 长 时 间 沾 留 了 ,以 致 延误 到 连接 释放 以 后 的 某 个 时 间 才 到 达 B。 本 来 这 是 一 个 早已 
失效 的 报 文 段 。 但 B 收 到 此 失效 的 连接 请 求 报 文 段 后 ,就 误 以 为 A 又 发 了 一 次 新 的 连接 
请 求 ,于 是 向 A 发 出 确认 报 文 段 ,同意 建立 连接 。 假 如 不 采用 三 次 握手 ,那么 只 要 B 发 出 
确认 ,新 的 连接 就 建立 了 。 

由 于 A 并 未 发 出 建立 连接 的 请 求 , 因 此 不 会 理 紧 B 的 确认 ,也 不 会 向 B 发送 数据 。 
但 B 却 以 为 新 的 运输 连接 已 经 建立 了 ,并 一 直 等 待 A 发 来 数据 ,因此 白白 浪费 了 许多 资 
源 。 三 次 握手 的 具体 参数 如 图 4-43 所 示 。 

【示例 】 

IP 192.168.1.116.3337 -->192.168.1.123.7788: S 3626544836:3626544836 


IP 192.168.1.123.7788 一 >192.168.1.116.3337: S 1739326486:1739326486 ACK 3626544837 
IP 192.168.1.116.3337 一 >192.168.1.123.7788: ACK 1739326487,ACK 1 
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客户 服务 器 
一 旦 * "号 一 一 


LISTEN 


数据 传送 ESTAB- 


图 4-43 三 次 握手 的 具体 参数 


说 明 

第 一 次 握手 : 192. 168. 1. 116 发 送 位 码 SYN 二 1, 随 机 产生 seq number 王 3626544836 的 
数据 包 到 192. 168. 1. 123 ,192. 168. 1. 123 由 SYN 二 1 知道 192. 168. 1. 116 要 求 建 立 联机 ; 

第 二 次 握手 : 192. 168. 1. 123 收 到 请 求 后 要 确认 联机 信息 ,向 192. 168. 1. 116 发 送 
ACK number 二 3626544837,SYN 二 1,ACK 二 1, 随 机 产生 seq 二 1739326486 的 包 ; 

第 三 次 握手 : 192. 168. 1. 116 收 到 后 检查 ACK number 是 否 正确 , 即 第 一 次 发 送 的 
seq number 十 1, 以 及 位 码 ACK 是 否 为 1, 若 正确 ,192. 168. 1. 116 会 再 发 送 ACK number 一 
1739326487,ACK 王 1,192. 168. 1. 123 收 到 后 确认 seq 二 seq 十 1, ACK 二 1 则 连接 建立 
成 功 。 


2. 四 次 断 开 工作 流程 


第 一 次 断 开 : 主机 A 向 主机 B 发 送 FIN 报 文 段 , 表 示 关 闭 数据 传送 ,主机 A 进入 
FIN_WAIT_1 状态 ,表示 没有 数据 要 传输 了 ; 

第 二 次 断 开 : 主机 B 收 到 FIN 报 文 段 后 进入 CLOSE_WAIT 状态 (被 动 关闭 ) ,然后 
发 送 ACK 确认 ,表示 同意 关闭 请 求 了 ,主机 A 到 主机 B 的 数据 链 路 关闭 ,主机 A 进入 
FIN_WAIT_2 状态 ; 

第 三 次 断 开 : 主机 B 等 待 主机 A 发 送 完 数据 ,发 送 FIN 到 主机 A 请 求 关 闭 , 主 机 B 
进入 LAST_ACK 状态 ; 

第 四 次 断 开 : 主机 A 收 到 主机 B 发 送 的 FIN 后 ,回复 ACK 确认 到 主机 B, 主 机 A 进 
入 TIME_WAIT 状态 。 主 机 B 收 到 主机 A 的 ACK 后 就 关闭 连接 了 ,状态 为 CLOSED。 
主机 A 等 待 2MSL, 仍 然 没 有 收 到 主机 B 的 回复 ,说 明 主 机 B 已 经 正常 关闭 了 ,主机 A 关 
闭 连 接 。 
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3. 孤儿 连接 


连续 停留 在 FIN_WAIT2 状态 可 能 发 生 孤 儿 连 接 。 客 户 端 执行 半 关 闭 状态 后 ,未 等 
服务 器 关闭 连接 就 直接 退出 了 ,此 时 客户 端 连接 由 内 核 接管 。Linux 为 防止 孤儿 连接 长 
时 间 存 在 内 核 中 ,定义 了 两 个 变量 指定 孤儿 连接 数目 和 生存 时 间 。 


4. 为 什么 要 四 次 断 开 而 不 是 三 次 


当主 机 B 发 送 ACK 确认 主机 A 的 FIN 时 ,并 不 代表 主机 B 的 数据 发 送 完 毕 , 主 机 
A 发 送 完 FIN 处 于 半 关 闭 状态 (不 能 发 送 数据 ,但 可 以 接收 数据 ), 所 以 要 等 待 主机 B 的 
数据 发 送 完毕 后 ,发 出 FIN 关闭 连接 请 求 时 ,主机 B 才 进 入 CLOSED 状态 ,主机 A 再 发 
送 ACK 确认 关闭 进入 CLOSE 状态 。 


5. 为 什么 TIME_WAIT 状态 要 等 2MSL 才 进 入 CLOSED 状态 


MSL(Maximum Segment Lifetime) : 报 文 最 大 生存 时 间 , 是 任何 报 文 段 被 丢弃 前 在 网 络 
内 的 最 长 时 间 。 当 主机 A 回复 主机 B 的 FIN 后 等 待 2MSL, 即 确保 两 端的 应 用 程序 结束 。 

如 果 主 机 A 直接 进入 CLOSED 状态 ,由 于 IP 协议 不 可 靠 性 或 网 络 问题 ,导致 主机 A 
最 后 发 出 的 ACK 报 文 未 被 主机 B 接收 到 ,那么 主机 B 在 超时 后 继续 向 主机 A 重新 发 送 
FIN ,而 主机 A 已 经 关闭 ,那么 找 不 到 向 主机 A 发 送 FIN 的 连接 ,主机 B 这 时 收 到 RST 
并 把 错误 报告 给 高 层 ,不 符合 TCP 协议 的 可 靠 性 特点 。 

如 果 主 机 A 直接 进入 CLOSED 状态 ,而 主机 也 还 有 数据 滞留 在 网 络 中 , 当 有 一 个 新 
连接 的 端口 和 原来 主机 B 的 相同 ,那么 当 原来 滞留 的 数据 到 达 后 ,主机 A 认为 这 些 数据 
是 新 连接 的 ,而 实际 上 是 原来 连接 的 数据 ,造成 混乱 。 等 待 2MSL 确保 本 次 连接 所 有 数 
据 消 失 , 如 图 4-44 所 示 。 


服务 器 
B 


主动 关闭 LISHED | 建立 状态 二 数据 传送 es 


i LISHED 


时 间 等 待 


CLOSED 


图 4-44 TIME_WAIT 状态 
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4.6 防火 墙 的 基本 配置 


iptables 命令 格式 ( 见 4.4. 2 节 部 分 ) 中 常见 的 命令 选项 如 下 。 


-A 


在 指定 链 的 末尾 添加 Cappend) 一 条 新 的 规则 。 

删除 Cdelete) 指 定 链 中 的 某 一 条 规则 ,可 以 按 规则 序号 和 内 容 删除 。 
在 指定 链 中 插入 (insert) 一 条 新 的 规则 ,默认 在 第 一 行 添加 。 

修改 、 蔡 换 (replace) 指 定 链 中 的 某 一 条 规则 ,可 以 按 规则 序号 和 内 容 蔡 换 。 
列 出 (list) 指 定 链 中 所 有 的 规则 进行 查看 。 

重 命 名 用 户 定义 的 链 , 不 改变 链 本 身 。 

清空 (flush) 。 

新 建 (new-chain) 一 条 用 户 自己 定义 的 规则 链 。 

删除 指定 表 中 用 户 自 定 义 的 规则 链 (delete-chain) 。 

设置 指定 链 的 默认 策略 (policy) 。 

将 所 有 表 的 所 有 链 的 字 节 和 数据 包 计 数 器 清 零 。 
查看 版 本 (version) 。 

获取 帮助 (help) 。 


下 面 介绍 主要 命令 选项 及 其 功能 ,用 来 管理 和 配置 防火 墙 中 的 相关 规则 。 


4.6.1 


规则 查看 (-L) 


基本 格式 : 

iptables [-t 表 名 ] [-v -xn 一 line-numbers ]-L [ 链 名 ] 

其 中 , 表 名 默认 指 filter 表 , 链 名 默认 指 表 中 所 有 链 。 

并 iptables -L 命令 将 显示 filter 表 中 所 有 三 个 链 的 所 有 规则 。 

此 外 ,还 可 以 通过 附加 选项 进一步 定制 显示 规则 的 内 容 。 

-v 选项 : verbose, 表 示 详 细 的 , 完 长 的 。 此 选项 会 显示 更 详细 的 信息 (更 多 字段 ) ,如 
计数 器 记录 的 规则 匹配 到 的 报 文 数量 与 总 大 小 等 的 信息 。 


# iptables -v -LINPUT 或 者 #iptables -vL INPUT 


这 些 字段 就 是 规则 对 应 的 属性 ,就 是 规则 的 各 种 信息 。 这 些 字段 对 应 表示 如 下 信息 ， 
在 后 续 实 际 配置 过 程 中 会 更 加 明白 ,此 处 大 致 了 解 即 可 。 

pkts: 对 应 规则 匹配 到 的 报 文 的 个 数 。 

bytes: 对 应 匹配 到 的 报 文 包 的 大 小 总 和 。 

target: 规则 对 应 的 target, 往 往 表示 规则 对 应 的 动作 , 即 规则 匹配 成 功 后 需要 采取 


的 措施 


prot: 表示 规则 对 应 的 协议 ,是 否 只 针对 某 些 协 议 应 用 此 规则 。 


opt: 表示 规则 对 应 的 选项 。 
in: 表示 数据 包 由 哪个 接口 (网 卡 ) 流 入 ,可 以 设置 通过 哪 块 网 卡 流入 的 报 文 需要 匹 
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配 当前 规则 。 

out: 表示 数据 包 由 哪个 接口 (网 卡 ) 流 出 ,可 以 设置 通过 哪 块 网 卡 流出 的 报 文 需要 匹 
配 当 前 规则 。 

source: 表示 规则 对 应 的 源头 地 址 ,可 以 是 一 个 IP, 也 可 以 是 一 个 网 段 。 

destination: 表示 规则 对 应 的 目标 地 址 。 可 以 是 一 个 IP, 也 可 以 是 一 个 网 段 。 

-n 选项 ; 表示 以 数字 形式 显示 相关 信息 ,不 对 相关 信息 (如 IP、 端 口号 等 ) 进 行 名 称 
解析 。 如 上 例 中 的 源 地 址 与 目标 地 址 都 为 anywhere, 防 火 墙 默认 进行 了 名 称 解 析 , 但 是 
在 规则 非常 多 的 情况 下 如 果 进 行 名 称 解 析 , 效 率 会 比较 低 。 所 以 ,可 以 使 用 -n 选项 不 对 
IP 地 址 进行 名 称 反 解 ,直接 显示 IP 地 址 。 


# iptables -n -L INPUT 或 者 #iptables -nL INPUT 

一 line-number 选项 : 可 简写 为 -line, 显 示 规 则 在 链 中 的 编号 ,在 插入 、 删 除 、 修 改 时 
提供 依据 ,或 者 在 查看 时 提供 方便 。 

# iptables -- line- numrber-L INPUT 或 者 #iptables -line -L INPOT 


-x 选项 : 表示 显示 精确 的 计数 值 。 当 被 匹配 到 的 包 达 到 一 定数 量 时 ,计数 器 会 自动 
将 匹配 到 的 包 的 大 小 转换 为 可 读 性 较 高 的 单位 。 如 果 想 要 查看 精确 的 计数 值 , 而 不 是 经 
过 可 读 性 优化 过 的 计数 值 ,可 以 使 用 -x 选项 。 


# iptables -v-x-LINPUT 或 者 #iptables -vxL INPUT 


4.6.2 规则 删除 (-D) 


如 果 想 要 删除 filter 表 中 INPUT 中 的 某 条 规则 ,有 如 下 两 种 方法 。 

方法 一 : 根据 规则 的 编号 去 删除 规则 。 

基本 格式 : 

iptables [-t 表 名 ] -D 链 名 规则 编号 

# iptables -D INPUT 3 表示 删除 filter 表 中 INPUT 链 的 第 3 条 规则 ,后 续 规则 编 
号 按 顺 序 前 移 。 

方法 二 : 根据 具体 的 匹配 条 件 与 动作 删除 规则 。 

基本 格式 : 

iptables [-t 表 名 ] -D 链 名 匹配 条 件 与 动作 

#iptables -D INPUT - s 192. 168. 1. 226 - j ACCEPT 表示 删除 源 地址 为 192. 
168. 1. 226 ,动作 为 ACCEPT 的 规则 。 


4.6.3 规则 清空 (-F) 


删除 指定 表 中 指定 链 中 的 所 有 规则 。 
基本 格式 : 
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By 


iptables [-t 表 名 ] -F [ 链 名 ] 

-F 选项 为 flush 之 意 , 即 冲刷 指定 的 链 , 即 删除 指定 链 中 的 所 有 规则 ,但 是 注意 ,此 操 
作 相 当 于 删除 操作 ,在 没有 保存 iptables 规则 的 情况 下 ,请 慎 用 。 

不 指定 链 名 , 则 删除 指定 表 中 的 所 有 链 和 所 有 规则 。 

## iptables -F 将 清空 filter 表 所 有 3 个 链 中 的 所 有 规则 。 


4.6.4 默认 规则 (-P) 


清空 系统 默认 规则 ,在 从 全 新 环境 开始 按 用 户 要 求 配置 具体 防火 墙 规则 前 ,首先 要 设 
定 相 关 链 的 默认 规则 (黑白 名 单 ) 。 

基本 格式 : 

iptables [-t 表 名 ] -P 链 名 默认 规则 


# iptables -P INPUT DROP 设 定 filter 表 中 INPUT 链 的 默认 规则 为 DROP( 黑 名 
单 )。 其 他 表 中 的 链 的 默认 规则 类 同 处 理 。 一 般 白 名 单 (ACCEPT) 先 开放 所 有 ,关闭 特 
定 匹 配 条 件数 据 包 ,设置 相对 宽松 ,系统 默认 为 白 名 单 ; 黑 名 单 则 相反 ,设置 相对 严格 。 在 
学 习 过 程 中 建议 采用 默认 的 白 名 单 。 


4.6.5 规则 添加 

本 节 重 点 介绍 主机 防火 墙 规则 定义 .NAT 表 及 FORWARD 链 具 体 应 用 后 续 介 绍 。 
以 filter 表 为 基础 ,在 系统 默认 策略 ACCEPT 情况 下 ,向 相关 INPUT、OUTPUT 链 添加 
相关 规则 ,重点 理解 条 件 匹 配 在 规则 定义 中 的 应 用 。 

基本 格式 : 

iptables [-t 表 名 ] - 工 链 名 [规则 编号 ] [! 条 件 匹 配 ] [-j 目标 动作 或 跳 转 ] 

在 添加 相关 规则 前 ,主机 A(192. 168. 1.227) 可 以 ping 通 主机 B, 如 图 4-45 所 示 。 


图 4-45 添加 规则 前 A 和 B 互 通 


禁止 其 他 主机 ping 通 主机 B, 则 在 B 上 添加 防火 墙 规则 如 下 : 
#iptables -I INPUT -d 192.168.1.229 -j DROP 


其 中 ,省 略 规则 编号 则 默认 从 最 后 一 个 规则 开始 编号 ;匹配 条 件 -d 192. 168. 1. 229 表 
示 目 标 地 址 为 192. 168. 1. 229 的 所 有 数据 包 ;-j DROP 表示 匹配 的 数据 包 进行 丢弃 处 理 。 
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若 通过 putty 等 远程 连接 工具 连接 主机 B, 执 行 这 条 命 
[二 


命令 后 网 络 连接 发 生 中 断 , 说 明 防火 
当 规 则 已 经 立即 生效 ,关闭 了 所 有 连接 数据 包 通过 ,包括 通过 22 号 端口 的 远程 连接 ,如 
图 4-46 所 示 。 


图 4-46 添加 规则 后 A 无 法 远程 连接 B 


# iptables - L INPUT 在 主机 B 的 本 机 终端 显示 添加 的 规则 ,如 图 4-47 所 示 。 


图 4-47 显示 添加 的 规则 


主机 A 上 测试 也 无 法 ping 通 B, 如 图 4-48 所 示 


图 4-48 ”添加 规则 后 A 无 法 连接 B 


在 主机 也 的 INPUT 链 上 现 有 规则 前 插入 新 的 规则 ,允许 远程 连接 : 


# iptables -I INPUT 1 -d 192.168.1.229 -p tcp -mtcp --dport 22 -j ACCEPT 

其 中 -m tcp 一 dport 22 表示 扩展 条 件 匹 配 , 详 见 4.7 节 。 此 时 可 正常 远程 连接 主机 B 
并 显示 INPUT 链 详细 规则 ,说明 第 1 条 链 上 远程 连接 已 经 通过 116 个 包 、10992 个 字 了 
的 数据 。 


井 iptables -v 


4 
J 


-L INPUT 显示 新 添加 规则 及 规则 匹配 的 数据 包 , 如 图 4-49 所 示 。 


[rz BB ~] 磋 


@ iptables -v -L INPUT 
chain INPUT 


(policy A 2 packets, 
Prot opt in 


Pkts bytes target 


458 bytes) 
out source destination 


anywhere 


192.168.1.229 
anywhere 


图 4-49 显示 新 添加 规则 


192.168.1.229 
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司 


4.6.6 规则 修改 
基本 格式 : 
iptables [-t 表 名 ] -R 链 名 规则 编号 规则 新 的 匹配 条 件 -j 动作 


修改 INPUT 链 上 的 第 2 条 规则 ,只 允许 主机 A 可 以 ping 通 主 机 B, 其 他 主机 不 多 
许 ,使 用 条 件 取 反 操 作 。 


#iptables -R INPUT 2!- s 192.168.1.227-d 192.168.1.229 -P icmp -]j DROP 


修改 后 的 规则 如 图 4-50 所 示 。 


1.227 和 


图 4-50 ”规则 修改 


4.6.7 自 定义 链 


除了 Iptables 的 默认 五 链 外 ,还 可 能 需要 自 定义 链 。 如 当 默 认 链 中 的 规则 非常 多 时 ， 
不 方便 管理 ,这 些 规 则 有 针对 httpd 服务 的 ,有 针对 sshd 服务 的 ,有 针对 私 网 IP 的 ,有 针 
对 公 网 IP 的 。 如 果 要 修改 针对 httpd 服务 的 相关 规则 ,还 要 从 头 检查 一 遍 所 有 的 规则 ， 
这 显然 不 方便 。 可 以 通过 自 定义 链 HTTP_IN 将 所 有 针对 Web 的 入 站 规则 都 写 入 到 这 
条 自 定义 链 中 , 当 以 后 想 要 修改 针对 Web 服务 的 入 站 规则 时 ,就 直接 修改 HTTP_IN 链 
中 的 规则 就 可 以 解决 上 述 问 题 。 

自 定义 链 并 不 能 直接 使 用 ,而 是 需要 被 默认 链 引 用 才能 够 使 用 。 

QO@ 创建 自 定义 链 ， # iptables [-t 表 名 ] -N 自 定义 链 名 。 

@ 引用 自 定义 链 : # iptables [-t 表 名 ] -I 链 名 匹配 条 件 -j 自 定义 链 名 。 

@ 重 命 名 自 定义 链 : # iptables -E 原 自 定义 链 名 新 自 定义 链 名 。 

@ 删除 自 定义 链 : # iptables -X 自 定义 链 名 。 

注 删除 自 定义 链 需 要 满足 两 个 条 件 : 

， 自 定义 链 没 有 被 引用 ; 

， 自 定义 链 中 没有 任何 规则 。 

【实例 4-1】 

OO 封 堵 网 段 (192. 168. 1. 0/24) ,两 小 时 后 解 封 。 


[root@server ~ ]# iptables -I INPUT -s 10.20.30.0/24 -j DROP 
[root@server ~ ]# iptables —I FORWARD - s 10.20.30.0/24 -j DROP 
[root@server ~ ]# at now +2 hours 

at> iptables -D INPUT 1 

at> iptables - D FORWARD 1 
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说 明 : 这 个 策略 借助 crond 计划 任务 来 完成 比较 好 。 

[1]+ Stopped 。 at now +2 hours 

@ 只 允许 管理 员 从 202. 13. 0. 0/16 网 段 使 用 SSH 远程 登录 防火 墙 主机 。 

iptables -A INPUT -~p tcp --dport 22 -s 202.13.0.0/16 -j ACCEPT 

iptables -A INPUT -p tcp --dport 22 -j DROP 

说 明 : 这 个 用 法 比较 适合 对 设备 进行 远程 管理 时 使 用 ,例如 位 于 分 公司 中 的 SQL 服 
务 器 需要 被 总 公司 的 管理 员 管 理 时 。 

@ 允许 本 机 开放 从 TCP 端口 20-1024 提供 的 应 用 服务 。 

iptables -A INPUT -P tcp -~ dport 20:1024 -]j ACCEPT 

iptables -有 OUTPUT -P tcp -- sport 20:1024 -]j ACCEPT 


@ 允许 转发 来 自 192. 168. 0. 0/24 局 域 网 段 的 DNS 解析 请 求 数据 包 。 


iptables -A FORWARD - s 192.168.0.0/24 -P udp - -dport 53 -]j ACCEPT 
iptables -A FORWARD -qd 192.168.0.0/24 -p udp -- sport 53 -]j ACCEPT 


@ 禁止 其 他 主机 ping 防火 墙 主机 ,但 是 允许 从 防火 墙 上 ping 其 他 主机 。 


iptables -I INPUT -P icmp -- icmp- type Echo- Request -]j DROP 
iptables -I INPUT -P icmp -- icmp-type Echo- Reply -]j ACCEPT 
iptables -I INPUT -P icmp -~ icmp- type destination- Unreachable -]j ACCEPT 


@ 禁止 转发 来 自 MAC 地 址 为 00: 0C: 29: 27: 55: 3F 的 和 主机 的 数据 包 。 
iptables -有 FORWARD -m mac — -mac- source 00:0c:29:27:55:3F -j DROP 


说 明 : iptables 中 使 用 “-m 模块 关键 字 ” 的 形式 调用 显示 匹配 。 这 里 用 -m mac 
一 mac-source 来 表示 数据 包 的 源 MAC 地 址 。 

@ 允许 防火 墙 本 机 对 外 开放 TCP 端口 20、21、25、110 以 及 被 动 模式 FTP 端口 
1250-1280。 


iptables -A INPUT -P tcp -mmultiport -一 dport 20,21,25,110,1250:1280 -]j ACCEPT 
说 明 : 这 里 用 -m multiport 一 dport 来 指定 目的 端口 及 范围 。 

@@ 禁止 转发 源 IP 地 址 为 192. 168. 1. 20-192. 168. 1. 99 的 TCP 数据 包 。 
iptables -有 FORWARD -P tcp -m iprange -- Src-Iange 192.168.1.20- 192.168.1.99 -j DROP 
说 明 : 此 处 用 -m-iprange 一 src-range 指定 IP 范围 。 

@ 禁止 转发 与 正常 TCP 连接 无 关 的 非 一 syn 请 求 数据 包 。 

iptables -A FORWARD -m state -- state NEW -P tcp! ~-— syn -j DROP 


说 明 : -m state 表示 数据 包 的 连接 状态 ,NEW 表示 与 任何 连接 无 关 的 ,新 的 。 
外 拒绝 访问 防火 墙 的 新 数据 包 , 但 允许 响应 连接 或 与 已 有 连接 相关 的 数据 包 。 
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iptables -A INPUT -P tcp -m state -一 state NEW —j DROP 

iptables -A INPUT -P tcp -m state -- state ESTABLISHED, RELATED — j ACCEPT 

说 明 : ESTABLISHED 表示 已 经 响应 请 求 或 者 已 经 建立 连接 的 数据 包 ,RELATED 
表示 与 已 建立 的 连接 有 相关 性 的 ,如 FTP 数据 连接 等 。 

@@ 只 开放 本 机 的 Web 服务 (80)` FTP(20、.21、20450-20480) ,放行 外 部 主机 发 往 服 务 
器 其 他 端口 的 应 管 数据 包 , 将 其 他 入 站 数据 包 均 予以 丢弃 处 理 。 

iptables -I INPUT -P tcp -~m multiport -~ dport 20,21,80 -j ACCEPT 

iptables -I INPUT -P tcp -— dport 20450:20480 -]j ACCEPT 


iptables -I INPUT -P tcp -m state - - state ESTABLISHED —j ACCEPT 
iptables -P INPUT DROP 


4.7 条 件 匹 配 


防火 墙 配置 的 核心 内 容 就 是 合理 设计 匹配 的 条 件 ,以 合理 高 效 地 完成 数据 包 过 滤 功 
能 。 当 一 条 规则 中 有 多 个 匹配 条 件 时 ,这 多 个 匹配 条 件 之 间 ,默认 存在 “与 ”的 关系 。 

条 件 分 为 基本 匹配 条 件 与 扩展 匹配 条 件 两 种 。 
4.7.1 基本 匹配 条 件 

1. 源 地址 Source IP,-s 

-s 选项 作为 匹配 条 件 , 可 以 匹配 报 文 的 源 地 址 ,每 次 指定 源 地 址 可 以 指定 单个 了 ;一 
次 也 可 以 指定 多 个 ,用 逗号 间隔 ,两 侧 均 不 能 包含 空格 ;除了 能 指定 具体 的 IP 地 址 ,还 能 
指定 某 个 网 段 。 

示例 ， 


# iptables -I INPUT - s 192.168.1.229,192.168.1.228 -j DROP 
# iptables -I INPUT -s 192.168.1.0/24 -j DROP 


使 用 “!” 表 示 条 件 取 反 , 如 下 面条 件 匹 配 表示 报 文 源 地 址 卫 只 要 不 为 192. 168. 1. 228 
即 满 足 条 件 。 取 反 操 作 与 同时 指定 多 个 IP 的 操作 不 能 同时 使 用 。 


#iptables -I INPUT !- s 192.168.1.228 -j DROP 

2. 目标 地 址 Destination IP.-d 

-d 选项 作为 匹配 条 件 , 可 以 匹配 报 文 的 目的 地 址 ,具体 用 法 与 -s 选项 相同 。 
3. 协议 匹配 Protocal,-p 


用 于 匹配 相关 协议 。centos6 中 ,-p 选项 支持 如 下 协议 类 型 : TCP、UDP、UDP- 
LITE、ICMP、ESP、AH、SCTP;centos7 中 ,-p 选项 支持 如 下 协议 类 型 : TCP、UDP、UDP- 
LITE、ICMP ICMPV6、ESP、.AH、SCTP、MH。 
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当 不 使 用 -p 指定 协议 类 型 时 ,默认 表示 所 有 类 型 的 协议 ,与 使 用 -p all 的 作用 相同 。 


4. 输入 网 卡 接口 input.-i 


用 于 匹配 数据 流入 的 接口 。 当 主机 有 多 个 网 卡 时 ,可 以 使 用 -i 选项 去 匹配 报 文 是 通 
过 哪 块 网 卡 流 入 本 机 的 。-i 选 项 只 能 用 于 PREROUTING 链 、INPUT 链 、FORWARD 
链 ,OUTPUT 链 与 POSTROUTING 链 都 不 能 使 用 -i 选项 。 


5. 流出 网 卡 接口 output,-o 


用 于 匹配 数据 流出 的 接口 。 当 主机 有 多 个 网 卡 时 ,可 以 使 用 -o 选项 去 匹配 报 文 是 通 
过 哪 块 网 卡 流出 本 机 的 。-o 选项 只 能 用 于 FORWARD 链 、OUTPUT 链 、 
POSTROUTING 链 。 

FORWARD 链 能 同时 使 用 -i 选项 与 -o 选项 。 


4.7.2 扩展 匹配 条 件 


基本 匹配 条 件 是 指 可 以 直接 使 用 的 匹配 条 件 。 除 了 上 述 基 本 匹配 条 件 外 ,还 有 很 
多 其 他 的 条 件 可 以 用 于 匹配 ,这 些 条 件 泛称 为 扩展 条 件 ,这 些 扩展 条 件 其 实 也 是 
netfilter 中 的 一 部 分 ,只 是 以 模块 的 形式 存在 ,如 果 想 要 使 用 这 些 条 件 , 则 需要 依赖 对 应 
的 扩展 模块 。 

基本 格式 : 


-m 扩 展 模 块 -- 扩 展 选 项 
如 规则 : 


# iptables -I INPUT -d 192.168.1.229 -p tcp -m tcp --dport 22 -j ACCEPT 


使 用 -p 选项 指定 了 协议 名 称 ,使 用 -m tcp 指定 TCP 扩展 模块 ,使 用 扩展 匹配 条 件 
一 dport 指定 了 目标 端口 。 

隐 含 匹配 是 指 在 使 用 扩展 匹配 条 件 的 时 候 , 如果 没 有 使 用 -m 指定 使 用 哪个 扩展 模 
块 ,iptables 会 默认 使 用 -p 指定 的 协议 名 ,这 称 为 隐 含 扩展 。 

基本 格式 : 


[-m 扩 展 模块 ] -- 扩 展 选项 


下 例 中 省 略 -m, 而 -p 对 应 的 值 为 trp, 所 以 默认 调用 的 扩展 模块 就 为 -m tcp。 如 果 -p 
对 应 的 值 为 udp, 那 么 默认 调用 的 扩展 模块 就 为 -m udp。 

#iptables -I INPUT -d 192.168.1.229 -p tcp --dport 22 -j ACCEPT 

总 之 ,如 果 这 个 扩展 匹配 条 件 所 依赖 的 扩展 模块 名 正好 与 -p 对 应 的 协议 名 称 相同 ， 
那么 则 可 省 略 -m 选项 ,否则 则 不 能 省 略 -m 选项 ,必须 使 用 -m 选项 指定 对 应 的 扩展 模块 
名 称 。 
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1. TCP 扩展 模块 - m tcp 


= 源 端 口 扩展 匹配 一 sport, 表 示 source-port, 用 以 判断 报 文 是 否 从 指定 的 端口 发 出 ， 
即 匹配 报 文 的 源 端口 是 否 与 指定 的 端口 一 致 
=。 目标 端口 扩展 匹配 --dport, 表 示 destination-port, 用 以 判断 报 文 是 否 进 入 指定 的 端 
口 , 即 匹配 报 文 的 目标 端口 是 否 与 指定 的 端口 一 致 
扩展 匹配 条 件 是 可 以 取 反 的 ,同样 是 使 用 *!” 进 行 取 反 ,例如 ! --dport 22 表示 目标 端 
口 不 是 22 的 报 文 将 会 被 匹配 。 无 论 一 sport 还 是 --dsport, 都 可 指定 一 个 连续 端口 范围 , 例 
如 --dport 22:25 表示 目标 端口 为 22 到 25 之 间 的 所 有 端口 。 
"标志 位 匹配 -tcp-flags, 通 过 此 扩展 匹配 条 件 , 去 匹配 TCP 报 文 的 头 部 的 标识 位 ， 
然后 根据 标识 位 的 实际 组 合 实现 访问 控制 的 功能 。TCP 头 中 的 6 个 标志 位 分 别 
为 SYN、ACK FIN、RST、URG、PSH。 
URG 紧急 指针 ,告诉 接收 TCP 模块 紧急 指针 域 指向 紧急 数据 。 如 果 URG 为 1, 表 
示 本 数据 包 中 包含 紧急 数据 。 此 时 紧急 数据 指针 表示 的 值 有 效 , 它 表示 在 紧急 数据 之 后 
的 第 一 个 字 节 的 偏 移 值 ( 即 紧 急 数 据 的 总 长 度 )。 
ACK 置 1 时 表示 确认 号 为 合法 ,为 0 的 时 候 表示 数据 段 不 包含 确认 信息 ,确认 号 被 
忽略 。 
PSH 表示 强迫 数据 传输 , 置 1 时 请 求 的 数据 段 在 接收 方 得 到 后 就 可 直接 送 到 应 用 程 
序 ,而 不 必 等 到 缓冲 区 满 时 才 传送 。 
RST 置 1 时 重建 连接 。 如 果 接 收 到 RST 位 ,通常 发 生 了 某 些 错误 。 必 须 释 放 连 接 ， 
然后 再 重新 建立 。 
SYN 置 1 时 用 来 发 起 一 个 连接 ,如 果 SYN=1 而 ACK=0, 表 明 它 是 一 个 连接 请 求 ; 
如 果 SYN=1 且 ACK==1, 则 表示 同意 建立 一 个 连接 。 
FIN 置 1 时 表示 发 送 端 完成 发 送 任务 。 用 来 释放 连接 ,表明 发 送 方 已 经 没有 数据 发 
证 
其 中 URG 不 能 和 PSH 标志 位 同时 使 用 。 
TCP 三 次 握手 中 的 第 一 次 握手 SYN 二 1, 其 余 为 0, 对 应 的 匹配 条 件 : 


#iptables -d 192.168.1.229 -t tcp - -tcp- flags SYN, ACK, FIN, RST, URG, PSH SYN -j ACCEPT 


其 中 第 一 部 分 SYN, ACK,FIN,RST,URG,PSH 为 TCP 标志 位 模板 ,第 二 部 分 
SYN 为 模板 中 对 应 有 效 位 为 SYN。TCP 扩展 模块 还 专门 提供 了 一 个 匹配 第 一 次 握手 选 
项 --syn, 上 例 等 价 于 : 


#iptables -d 192.168.1.229 -t tcp -- syn -j ACCEPT 
如 果 标 志 位 模板 包括 所 有 的 6 个 标志 位 ,可 用 ALL 来 代表 。 下 例 表 示 匹 配 TCP 连 
接 的 第 二 次 手 。 


# iptables -d 192.168.1.229 -t tcp --tcp- flags ALL SYN, ACK -j ACCEPT 
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2. multiport 扩展 模块 


可 同时 指定 多 个 离散 的 端口 ,需要 借助 另 一 个 扩展 模块 ,-m multiport 模块 ,其 对 应 
的 扩展 匹配 条 件 包 括 --sport 一 dport, 指 定 多 个 离散 端口 用 逗号 间隔 。 如 -m multiport 一 
dport 22,53,80 表示 访问 的 22 号 端口 .53 号 端口 以 及 80 号 端口 的 数据 包 。multiport 扩 
展 只 能 用 于 TCP 协议 与 UDP 协议 , 即 配 合 -p tcp 或 者 -p udp 使 用 。 


3. iprange 扩展 模块 


使 用 iprange 扩展 模块 指定 一 段 连续 的 IP 地 址 范围 。 在 不 使 用 任何 扩展 模块 的 情 
况 下 ,使 用 -s 选项 或 者 -d 选项 即 可 同时 指定 多 个 IP 地 址 ,每 个 IP 地 址 用 逗号 隔 开 , 但 是 
-s 选项 与 -d 选项 并 不 能 一 次 性 地 指定 一 段 连续 的 IP 地 址 范围 。 包 括 --src-range 和 
一 dst-range 两 个 选项 分 别 用 于 匹配 报 文 的 源 地 址 所 在 范围 与 目标 地 址 所 在 范围 ,还 能 够 
使 用 “1” 取 反 。 如 -m iprange --src-range 192. 168. 1. 100-192. 168. 1. 200 表示 源 IP 主机 
地 址 从 100 到 200 的 所 有 IP。 


4. string 扩展 模块 


使 用 string 扩展 模块 ,可 以 指定 要 匹配 的 字符 串 , 如 果 报 文中 包含 对 应 的 字符 串 , 则 
符合 匹配 条 件 。 如 条 件 # iptables -T OUPUT -s 192. 168. 1. 229 -p tcp -m string -string 
“OOXX”--algo bm-j DROP 表示 如 果 报 文中 包含 OOXX 字符 则 过 滤 掉 。-m string 表示 
使 用 string 模块 ;--algo bm 表示 使 用 bm 算法 去 匹配 指定 的 字符 串 ;--string“OOXX” 则 
表示 要 匹配 的 字符 串 为 OOXX。 

设置 完 上 述 规则 后 ,如 果 网 页 中 包含 OOXX 字符 串 ,回应 报 文 无 法 通过 服务 器 的 
OUTPUT 链 , 所 以 客户 端 无 法 获取 到 页 面 对 应 的 内 容 。 

string 模块 的 常用 选项 如 下 。 

--algo: 用 于 指定 匹配 算法 ,可 选 的 算法 有 bm 与 kmp, 此 选项 为 必须 选项 ,不 用 纠结 
于 选择 哪个 算法 ,但 是 必须 指定 一 个 ; 

一 string: 用 于 指定 需要 匹配 的 字符 串 。 


5.time 扩展 模块 -m time 


如 果 报 文 到 达 的 时 间 在 指定 的 时 间 范 围 以 内 , 则 符合 匹配 条 件 。 

time 扩展 模块 常用 扩展 匹配 选项 包括 以 下 几 项 。 

一 timestart: 用 于 指定 时 间 范 围 的 开始 时 间 , 不 可 取 反 ; 

一 timestop: 用 于 指定 时 间 范 围 的 结束 时 间 , 不 可 取 反 ; 

--weekdays: 用 于 指定 星期 几 , 可 取 反 ,可 以 同时 指定 多 个 ,用 逗号 隔 开 。 除 了 能 用 
数字 表示 星期 几 , 还 能 用 英文 缩写 表示 ,例如 ,Mon,Tue,Wed,Thu,Fri,Sat,Sun; 

一 monthdays: 用 于 指定 每 个 月 的 几 号 ,可 取 反 ; 

一 datestart: 用 于 指定 日 期 范围 的 开始 日 期 ,不 可 取 反 ; 

一 datestop: 用 于 指定 日 期 范围 的 结束 日 期 ,不 可 取 反 。 
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例如 : -m time 一 timestart 8: 00: 00 一 timestop 17: 00: 00 ! 一 weekdays 6, 7 
一 monthdays 22,23,24,25,26 一 datastart 2017-10-26 一 datastop 2017-12-31 条 件 指定 从 
2017 年 10 月 26 到 2017 年 12 月 31 日 期 间 的 非 双 休 日 并 且 每 月 22 一 26 日 的 早 8 点 到 晚 
5 点 的 时 间 段 。 各 条 件 间 为 相 与 关系 。 

【示例 】 


#iptables -t filter -I OUTPUT -P tcp -— dport 80 -mtime --timestart 09:00:00 
——timestop 19:00:00 -]j REJECT 

#iptables -t filter -IOUTPUT -ptcp -~ dport 443 -mtime - ~ timestart 09:00:00 --timestop 
19:00:00 -j REJECT 

#iptables -t filter -I OUTPUT -P tcp -~ dport 80 -mtime -一 weekdays 6,7 

—j REJECT 

#iptables -tt filter -I OUTPUT -P tcp -一 dport 80 -mtime - -monthdays 22,23 

-j REJECT 

#iptables -t filter -I OUTPUT -P tcp -~ dport 80 -mtime ! --monthdays 22,23 -j REJECT 
#iptables -t filter -I OUTPUT -P tcp -~ dport 80 -mtime -一 timestart 09:00:00 

-- timestop 18:00:00 - -weekdays 6,7 -j REJECT 

#iptables -t filter -I OUTPUT -P tcp -— dport 80 -mtime -~—weekdays 5 

一 -monthdays 22,23, 24,25, 26,27,28 —j REJECT 

#iptables -t filter ~-I OUTPUT -P tcp -~ dport 80 -mtime -~ datestart 2017- 12 

-24 --datestop 2017- 12- 27 -j REJECT 


6.connlimit 扩展 模块 -m connlimit 


使 用 connlimit 扩展 模块 ,可 以 限制 每 个 IP 地 址 同时 连接 到 server 端的 连接 数量 。 
不 指定 IP 默认 就 是 针对 每 个 客户 端 IP, 即 对 单 IP 的 并 发 连接 数 限制 。 

例如 ,条 件 -m connlimit 一 connlimit-above 2 - p tcp 一 dport 22-j REJECT 限制 每 个 
IP 地 址 最 多 只 能 占用 两 个 ssh 连接 远程 到 server 端 。 

常用 的 扩展 匹配 条 件 如 下 。 

一 connlimit-above: 单独 使 用 此 选项 时 ,表示 限制 每 个 IP 的 连接 数量 ,此 选项 可 以 
取 反 。 

一 connlimit-mask: 此 选项 不 能 单独 使 用 ,在 使 用 -connlimitrabove 选项 时 ,配合 此 选 
项 , 则 可 以 针对 某 类 IP 段 进行 连接 数量 的 限制 。 如 一 connlimit-mask 24 表示 某 个 C 类 网 
段 所 包含 254 个 IP 的 C 类 网 络 中 ,同时 最 多 允许 多 少 个 客户 端 连接 到 服务 器 。 

--connlimit-upto: centos7 中 提供 的 一 个 新 的 选项 ,这 个 选项 的 含义 与 ! -commlimit- 
above 的 含义 相同 , 即 连接 数量 未 达到 指定 的 连接 数量 。 


7. limit 扩展 模块 - m limit 


limit 模块 是 对 报 文 到 达 速 率 进行 限制 , 即 限制 单位 时 间 内 流入 的 包 的 数量 。 此 项 扩 
展 注意 默认 规则 对 限制 效果 的 影响 。 
在 默认 规则 为 ACCEPT 的 情况 下 ,下 面 规则 本 意 是 限制 ping 的 速度 每 分 钟 10 个 
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(每 6 秒 钟 1 个) 。 
# iptables -I INPUT -p icmp -m limit ~ -limit 10/minute -j ACCEPT 


其 中 一 limit 10/minute 选项 限制 ping 的 速度 每 分 钟 10 个 数据 包 , 未 能 达到 限制 的 作 
用 。 究 其 原因 发 现 INPUT 链 的 默认 规则 为 ACCEPT ,使 不 符合 条 件 的 数据 包 也 被 放行 。 

将 INPUT 链 的 默认 规则 修改 为 DROP 后 ,ping 速率 已 经 开始 受到 了 规则 的 限制 。 
但 前 5 个 ping 包 却 没有 受到 限制 ,选项 一 limit-burst 默认 值 是 5。 通俗 地 讲 ,一 limit-burst 
可 以 指定 空闲 时 (如 早晨 停车 场 刚 开放 时 ?可 放行 的 包 的 数量 , 即 峰值 数量 。limit 模块 使 
用 了 令 牌 桶 算法 。 

可 以 这 样 想象 ,有 一 个 木 桶 , 木 桶 里 面 放 了 5 块 令 牌 ,而 且 这 个 木 桶 最 多 也 只 能 放下 
5 块 令 牌 ,所 有 报 文 如 果 想 要 出 关 入 关 , 都 必须 要 持 有 木 桶 中 的 令 牌 才 行 ,这 个 木 桶 有 一 
个 神奇 的 功能 ,就 是 每 隔 6s 会 生成 一 块 新 的 令 牌 ,如 果 此 时 , 木 桶 中 的 令 牌 不 足 5 块 , 那 
么 新 生成 的 令 牌 就 存放 在 木 桶 中 ,如 果木 桶 中 已 经 存在 5 块 令 牌 , 新 生成 的 令 牌 就 无 处 安 
放 了 ,只 能 溢出 ( 令 牌 被 丢弃 )。 如 果 开 始 有 5 个 报 文 想 要 入 关 , 那 么 这 5 个 报 文正 好 一 人 
一 块 令 牌 ,于 是 最 初 的 5 个 报 文 手持 令 牌 顺利 通过 。 此 时 木 桶 空 了 ,再 有 报 文 想 要 入 关 ， 
已 经 没有 对 应 的 令 牌 可 以 使 用 了 ,此 时 来 的 报 文 不 能 通关 。 但 是 每 经 过 6s 就 会 产生 1 个 
新 的 令 牌 ,此 刻 正好 来 了 一 个 报 文 想 要 入 关 , 于 是 这 个 报 文 拿 起 这 个 令 牌 ,幸运 入 关 了 。 
在 这 个 报 文 之 后 ,如 果 很 长 一 段 时 间 内 没有 新 的 报 文 想 要 入 关 , 木 桶 中 的 令 牌 又 会 慢 慢 的 
积攒 起 来 ,直到 达到 5 个 令 牌 ,并 且 一 直 保 持 着 5 个 令 牌 ,直到 有 人 需要 使 用 这 些 令 牌 ,这 
就 是 令 牌 桶 算法 的 大 致 思想 。 

对 应 的 选项 如 下 。 

一 limit: 类 比 令 牌 桶 算法 ,此 选项 用 于 指定 令 牌 桶 中 生成 新 令 牌 的 频率 , 即 限制 单位 
时 间 内 允许 数据 包 的 数量 。 可 用 时 间 单 位 有 秒 分、 小时、 天。 

一 limit-burst: 类 比 令 牌 桶 算法 ,此 选项 用 于 指定 令 牌 桶 中 令 牌 的 最 大 数量 。 


8. UDP 扩展 -m udp 


先 来 说 说 UDP 扩展 模块 ,这 个 扩展 模块 中 能 用 的 匹配 条 件 比 较 少 ,只 有 两 个 ,就 是 
一 sport 与 -dport, 即 匹配 报 文 的 源 端 口 与 目标 端口 ,基本 用 法 与 TCP 扩展 相同 ,在 此 不 
装 述 。 

9. ICMP 扩展 


ICMP(Internet Control Message Protocol, 互 联网 控制 报 文 协 议 ), 它 主要 用 于 探测 
网 络 上 的 主机 是 否 可 用 、 目 标 是 否 可 达 、 网 络 是 否 通畅 路 由 是 否 可 用 等 。ping 命令 使 用 
的 就 是 ICMP 协议 。 发 出 ping 请 求 , 对 方 回 应 ping 请 求 , 虽 然 ping 请 求 报 文 与 ping 回 
应 报 文 都 属于 ICMP 类 型 的 报 文 ,但 是 如 果 在 概念 上 细 分 ,它们 所 属 的 类 型 还 是 不 同 的 ， 
发 出 的 ping 请 求 属于 类 型 8 的 ICMP 报 文 ,而 对 方 主机 的 ping 回应 报 文 则 属于 类 型 0 的 
ICMP 报 文 , 根 据 应 用 场景 的 不 同 ,ICMP 报 文 被 细 分 为 如 表 4-1 或 表 4-2 所 示 的 各 种 
类 型 。 
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续 表 
表 4-1 ICMP 报 文 类 型 代码 表 ( 英 文 ) 
TYPE|CODE Description Query| Error 
0 0 | Echo Reply 一 一 回应 应 答 (ping 应 答 ) x 
3 0 | Network Unreachable 一 一 网 络 不 可 达 x 
3 1 | Host Unreachable 一 一 主机 不 可 达 x 
3 2 | Protocol Unreachable 一 一 协议 不 可 达 x 
3 3 | Port Unreachable 一 一 端口 不 可 达 涝 
i Fragmentation needed but no frag. bit set 需要 进行 分 片 但 设置 不 分 x 
片 比特 
3 5 “| Source routing failed 一 一 源 路 由 失败 x 
3 6 “| Destination network unknown 一 一 目的 网 络 未 知 4 
3 7 | Destination host unknown 目的 主机 未 知 x 
3 8 “| Source host isolated (obsolete) 一 一 源 主机 被 隔离 (作废 不 用 ) x 
3 9 “| Destination network administratively prohibited 一 一 目的 网 络 被 强制 禁止 x 
3 10 | Destination host administratively prohibited 一 一 目的 主机 被 强制 禁止 x 
3 11 | Network unreachable for TOS 一 一 对 请 求 的 服务 类 型 TOS, 网 络 不 可 达 x 
3 12 | Host unreachable for TOS 一 一 对 请 求 的 服务 类 型 TOS, 主 机 不 可 达 x 
8 18 Communication administratively prohibited by filtering 一 一 由 于 过 滤 , 通 x 
信和 被 强制 禁止 

3 14 | Host precedence violation 一 一 主机 越权 x 
3 15 | Precedence cutoff in effect 一 一 优先 权 中 止 生效 x 
4 0 “| Source quench 一 一 源 端 被 关闭 (基本 流 控制 ) 
5 0 | Redirect for network 为 网 络 重 定向 
5 1 | Redirect for host 一 一 为 主机 重 定向 
S 2 | Redirect for TOS and network 一 一 为 服务 类 型 和 网 络 重 定向 
5 3 | Redirect for TOS and host 一 一 为 服务 类 型 和 主机 重 定向 
8 0 “| Echo request 一 一 请 求 回 应 (ping 请 求 ) x 
9 0 | Router advertisement 一 一 路 由 器 通告 
10 | 0 | Route solicitation 一 一 路 由 器 请 求 
Lb 0 | TTL equals 0 during transit 一 一 传输 期 间 生 存 时 间 为 0 各 
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TYPE|CODE Description Query| Error 
王 1 | TTL equals 0 during reassembly 一 一 在 数据 报 组 装 期 间 生存 时 间 为 0 > 
12 0 | IP header bad (catchall error) 一 一 坏 的 IP 首部 (包括 各 种 差错 ) 让 
12 1 | Required options missing 一 一 缺少 必需 的 选项 x 
13 0 | Timestamp request (obsolete) 时 间 截 请 求 ( 作 废 不 用 ) x 
14 0 | Timestamp reply (obsolete) 时 间 戳 应 答 ( 作 废 不 用 ) x 
15 0 | Information request (obsolete) 信息 请 求 (作废 不 用 ) 4 
16 0 “| Information reply (obsolete) 一 一 信息 应 答 (作废 不 用 ) x 
17 0 | Address mask request 一 一 地 址 掩 码 请 求 x 
18 0 | Address mask reply 一 一 地 址 掩 码 应 答 
表 4-2 ICMP 报 文 类 型 代码 表 ( 中 文 ) 
类 型 代码 名 称 查询 差错 
0 0 回应 应 答 (Echo Reply) ~ 
目的 地 不 可 达 V 
0 网 络 不 可 达 V 
1 主机 不 可 达 V 
2 协议 不 可 达 NA 
3 端口 不 可 达 NA 
4 需要 分 片 和 不 需要 分 片 标记 位 置 Vv 
5 源 路 由 失败 NA 
6 目的 网 络 未 知 Vv 
3 7 目的 主机 未 知 Vv 
8 源 主机 被 隔离 V/ 
9 目的 网 络 被 强制 禁止 ~ 
10 目的 主机 被 强制 禁止 JV 
11 对 请 求 的 服务 类 型 TOS, 目 的 网 路 不 可 达 V 
12 对 请 求 的 服务 类 型 TOS, 目 的 主机 不 可 达 V 
13 由 于 过 滤 ,通信 被 强制 禁止 V/ 
14 主机 越权 V 
15 优先 权 中 止 生效 V 
4 0 源 端 被 关闭 (Source Quench) JV 
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类 型 


代码 


查询 


重 定向 


为 网 络 ( 子 网 ) 重 定向 数据 报 


为 主机 重 定向 数据 报 


为 服务 类 型 和 网 络 重 定向 数据 报 


为 服务 类 型 和 主机 重 定向 数据 报 


| 


选择 主机 地 址 


请 求 回应 


路 由 器 通告 


之 


路 由 器 请 求 


超时 


传输 中 TTL=0 


分 片 重 组 TTL=0 


参数 问题 


指定 错误 的 指针 ( 坏 的 IP 首部 ) 


缺少 必需 的 选项 


错误 长 度 


时 间 稚 请 求 


时 间 戳 回复 


信息 请 求 (已 作废 不 用 ) 


信息 回复 (已 作废 不 用 ) 


地 址 掩 码 请 求 


地 址 掩 码 回复 


| 


跟踪 路 由 


数据 报 会 话 错误 


移动 主机 重 定向 


IPv6 你 在 哪里 


IPv6 我 在 这 里 


移动 注册 请 求 


36 


移动 注册 回复 


从 上 表 可 以 看 出 ,所 有 表示 目标 不 可 达 的 ICMP 报 文 的 type 码 为 3, 而 目标 不 可 达 又 
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可 以 细 分 为 多 种 情况 ,是 网 络 不 可 达 ? 还 是 主机 不 可 达 ? 再 或 者 是 端口 不 可 达 ? 所 以 ,为 
了 更 加 细致 地 区 分 它们 ,ICMP 对 每 种 type 又 细 分 了 对 应 的 code, 用 不 同 的 code 对 应 具 
体 的 场景 。 所 以 ,可 以 使 用 type/code 去 匹配 具体 类 型 的 ICMP 报 文 ,如 可 以 使 用 3/1 表 
示 主 机 不 可 达 的 ICMP 报 文 。 

# iptables -t filter -IINPUT -p icmp -m icmp icemp-type 8/0 -j REJECT 表示 应 答 
报 文 ,因为 类 型 8 只 有 这 种 为 0 的 代码 ,可 简写 为 : 


#iptables -t filter -I INPUT -P icmp - -~ icmp- type 8 -j REJECT 


也 可 以 使 用 能 用 ICMP 报 文 的 描述 名 称 去 匹配 对 应 类 型 的 报 文 ,名 称 中 的 空格 需要 
替换 为 -。 


iptables -t+t filter -I INPUT -P icmp --icmp-type "echo- request" -]j REJECT 


10. state 状态 扩展 模块 - m state 


state 模块 可 以 让 iptables 实现 连接 追踪 机 制 。 对 于 state 模块 而 言 的 连接 并 不 能 与 
TCP 的 连接 画 等 号 ,在 TCP/IP 协议 簇 中 ,UDP 和 ICMP 是 没有 所 谓 的 连接 的 ,但 是 对 于 
state 模块 来 说 ,TCP 报 文 . UDP 报 文 .ICMP 报 文 都 是 有 连接 状态 的 ,可 以 这 样 认 为 ,对 
于 state 模块 而 言 , 只 要 两 台 机 器 在 你 来 我 往 的 通信 ,就 算 建立 起 了 连接 。 对 于 state 模块 
的 连接 而 言 , 连接 其 中 的 报 文 可 以 分 为 5 种 状态 , 报 文 状 态 可 以 为 NEW、 
ESTABLISHED、RELATED、INVALID、UNTRACKED, 具 体 含 义 如 下 。 

NEW: 连接 中 的 第 一 个 包 , 状 态 就 是 NEW, 可 以 理解 为 新 连接 的 第 一 个 包 的 状态 
为 NEW。 

ESTABLISHED: 可 以 把 NEW 状态 包 后 面 的 包 的 状态 理解 为 ESTABLISHED, 表 
示 连 接 已 建立 。 

RELATED: 指 相关 联 的 连接 ,通过 FTP 服务 例子 理解 。FTP 服务 端 会 建立 两 个 进 
程 ,一 个 命令 进程 ,一 个 数据 进程 。 

命令 进程 负责 服务 端 与 客户 端 之 间 的 命令 传输 (可 以 把 这 个 传输 过 程 理 解 成 state 中 
所 谓 的 一 个 连接 ,和 暂 称 为 命令 连接 )。 

数据 进程 负责 服务 端 与 客户 端 之 前 的 数据 传输 ,把 这 个 过 程 称 为 数据 连接 。 

但 是 具体 传输 哪些 数据 ,是 由 命令 去 控制 的 ,所 以 ,数据 连接 中 的 报 文 与 命令 连接 是 
相关 联 的 。 

那么 ,数据 连接 中 的 报 文 相 对 于 命令 连接 就 是 RELATED 状态 。 

注 : 如 果 想 要 对 FTP 进行 连接 追踪 ,需要 单独 加 载 对 应 的 内 核 模块 nf_conntrack_ 
ftp, 如 果 想 要 自动 加 载 ,可 以 配置 /etc/sysconfig/iptables-config 文件 。 

INVALID: 如 果 一 个 包 没 有 办 法 被 识别 ,或 者 这 个 包 没有 任何 状态 ,那么 这 个 包 的 
状态 就 是 INVALID, 可 以 主动 屏蔽 状态 为 INVALID 的 报 文 。 

UNTRACKED: 报 文 的 状态 为 UNTRACKED 时 ,表示 报 文 未 被 追踪 , 当 报 文 的 状 
态 为 UNTRACKED 时 通常 表示 无 法 找到 相关 的 连接 。state 状态 扩展 模块 具体 应 
用 一 一 防范 反弹 木马 。 
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当 通 过 http 访问 某 个 服务 器 的 网 页 时 ,客户 端 向 服务 端的 80 端口 发 起 请 求 ,服务 端 
再 通过 80 端口 响应 。 作 为 客户 端 理 所 应 当地 放行 服务 器 80 端口 的 数据 ,以 便服 务 端 回 
应 报 文 可 以 进入 客户 端 主机 。 同 理 , 当 通过 ssh 工具 远程 连接 到 某 台 服务 器 时 ,客户 端 向 
服务 端的 22 号 端口 发 起 请 求 ,服务 端 再 通过 22 号 端口 响应 请 求 , 于 是 客户 机 理 所 应 当地 
放行 了 所 有 22 号 端口 ,以便 远 程 主机 的 响应 请 求 能 够 通过 。 但 是 作为 客户 端 , 如 果 并 没 
有 主动 向 80 端口 发 起 请 求 ,也 没有 主动 向 22 号 端口 发 起 请 求 ,那么 其 他 主机 通过 80 端 
口 或 者 22 号 端口 发 送 的 数据 可 以 接收 到 吗 ? 是 可 以 的 ,因为 为 了 收 到 http 与 ssh 的 响 
应 报 文 , 已 经 放行 了 80 端口 与 22 号 端口 ,所 以 不 管 是 正常 响应 客户 端的 报 文 , 还 是 主动 
发 送 给 客户 端的 报 文 ,都 是 被 放行 的 。 不 过 如 此 会 导致 系统 不 安全 。 如 果 某 些 恶 意 程序 
利用 这 些 端口 主动 连接 到 客户 端 主机 ,会 给 客户 端 主机 带 来 风险 。 这 种 情况 一 般 为 反弹 
式 木 马 。 实 际 上 应 该 是 客户 端 主动 请 求 80 端口 ,80 端口 回应 ,但 是 一 般 不 会 出 现 80 端 
口 主动 请 求 客户 端 情况 。 

而 反弹 木马 是 木马 病毒 的 一 种 ,这 类 木马 与 传统 的 远程 控制 软件 相反 ,进行 C/S( 客 
户 端 /服务 器 ) 的 反 向 连接 。 当 木马 服务 端 被 种 植 到 他 人 的 机 器 中 ,服务 端 运行 后 会 动态 
分 配 一 个 端口 ,主动 连接 客户 端 (黑客 ) 的 80 端口 ,如 果 用 户 用 netstat -a 命令 检查 ,将 显 
示 “TCP 本 机 IP:2513 远程 IP: 80 ESTABLISHED” 类 似 的 数据 ,好 像 是 在 浏览 网 页 , 因 
此 防火 墙 也 不 会 阻挡 这 种 非法 连接 ,给 木马 的 防范 带 来 了 困难 。 

针对 对 应 的 端口 ,用 一 tcp-flags 去 匹配 TCP 报 文 的 标志 位 ,把 外 来 的 第 一 次 握手 的 
请 求 拒绝 ,是 否 可 以 解决 反弹 木马 ?特别 是 如 果 对 方 使 用 的 是 UDP 协议 或 者 ICMP 协 
议 ,这 种 方案 有 一 些 不 完美 的 地 方 。 上 述 问 题 可 使 用 state 扩展 模块 解决 ,只 要 放行 状态 
为 ESTABLISHED 的 报 文 即 可 ,因为 如 果 报 文 的 状态 为 ESTABLISHED, 那 么 报 文 肯定 
是 之 前 发 出 的 报 文 的 回应 ,如 果 还 不 放心 ,可 以 将 状态 为 RELATED 或 ESTABLISHED 
的 报 文 都 放行 。 这 样 就 表示 只 有 回应 的 报 文 能 够 通过 防火 墙 ,如 果 是 别人 主动 发 送 过 来 
的 新 的 报 文 , 则 无 法 通过 防火 墙 。 

【示例 】 在 A 配置 防火 墙 规则 如 下 : 


#iptables -A INPUT -m state -- state ESTABLISED, RELATED - j ACCEPT 
#iptables -A INPUT -j DROP 


则 A 可 以 ping 通 B.B 不 能 ping 通 A。 
11. recent 扩展 - m recent 


对 应 的 选项 包括 : 

一 name # 设 定 列表 名 称 ,默认 DEFAULT。 

一 rsource 井 源 地 址 ,此 为 默认 。 

一 rdest 井 目的 地 址 。 

一 seconds 划 指 定时 间 内 ,必须 与 -update 同时 使 用 。 

一 hitcount # 命 中 次 数 , 必 须 与 -update 同时 使 用 。 

一 set 井 将 地 址 添加 进 列 表 , 并 更 新 信息 ,包含 地 址 加 入 的 时 间 截 。 
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一 rcheck 井 检查 地 址 是 否 在 列表 ,以 第 一 个 匹配 开始 计算 时 间 。 

一 update # 和 rcheck 类 似 , 以 最 后 一 个 匹配 计算 时 间 ,每 次 建立 连接 都 更 新 列表 。 

一 remove 井 在 列表 里 删除 相应 地 址 ,后 跟 列 表 名 称 及 地 址 。 

【实例 4-2】 对 连接 到 本 机 的 SSH 连接 进行 限制 ,每 个 IP 地 址 每 小 时 只 限 连 接 5 
次 。 对 应 的 结果 如 图 4-51 所 示 。 

# iptables -A INPUT -p tcp --dport 22 -m state -- state NEW -mm recent - — name SSHPOOL —— 

rcheck - - seconds 3600 - -hitcount 5 -j DROP 检查 新 连接 数量 是 否 超过 5 次 


# iptables -A INPUT -p tcp -— dport 22 -m state -- state NEW -m recent - - name SSHPOOL —— 


set -j ACCEPT 如 果 没 超过 5 次 , 则 接受 并 记录 新 连接 的 次 数 


图 4-51 连接 数 限制 结果 


对 应 记录 文件 : /proc/net/xt_recent/SSHPOOL ,其 记录 内 容 如 图 4-52 所 示 。 


图 4-52 连接 数 限制 记录 文件 


【实例 4-3】 抵御 DDOS 攻击 (ssh: 远程 连接 ) 


#iptables- I INPUT -P tcp -~ dport 22 -m connlimit -~ connlimit- above 3 -j DROP 
#ipntables-I INPUT-p tcp -- dport 22 -m state -- state NEW -m recent -- set — -name SSH 
# iptables -I INPUT-p tcp --dport 22 -m state -- state NEW -m recent — -update 


-- seconds 300 --hitcount 3 - -name SSH -j DROP 

注 : 利用 connlimit 模块 将 单 IP 的 并 发 设置 为 3 会 误杀 使 用 NAT 上 网 的 用 户 , 可 以 
根据 实际 情况 增 大 该 值 ;利用 recent 和 state 模块 限制 单 IP 在 300s 内 只 能 与 本 机 建立 3 
个 新 连接 。 被 限制 5min 后 即 可 恢复 访问 。 

【实例 4-4】 防止 暴力 破解 SSH 密码 。 


#iptables -A INPUT -p tcp --dport 22 - -tcp- flags ALL SYN -m state -- state NEW -j 10G — 
-log-prefix "[SSH Login]:" -— log- level debug 


注 : SSH Login log, 通 过 日 志 先 记录 登录 SSH 服务 的 用 户 , 可 以 使 用 tail /var/log/ 
iptables -n 100 | grep "SSH Login" 查 看 最 近 谁 在 登录 ,iptables 是 日 志文 件 名 ,日 志 名 需 
要 在 syslog 中 设置 。 


#iptables -A INPUT -P tcp -~ dport 22 -~ -tcp- flags ALL SYN -m state -~ state NEW —m recent 
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——name SSH- SYN - - update - - seconds 3600 - -hitcount 5 -- rttl -j REJECT - - reject- with 

tcp- reset 

#iptables -A INPUT -p tcp --dport 22 --tcp-flags ALL SYN -mm state -- state NEW -m recent 

—-—name SSH- SYN —— set —j ACCEPT 

注 : 1 Hour allow 5 SSH Login, 每 3600s( 每 小 时 ) 只 限 5 次 连接 的 SSH 服务 ,可 以 
根据 实际 情况 改 时 间 和 次 数 ,在 这 里 可 以 用 -j DROP 来 代替 -j REJECT,-j REJECT 
一 reject-with tcp-reset 是 对 客户 端 明 确 地 返回 一 个 重 置 TCP 连接 的 包 , 告 诉 对 方 服务 器 
关闭 连接 了 ,如 果 不 需 要 告诉 攻击 者 ,就 用 -j DROP 直接 丢弃 包 , 让 对 方 不 明 原 因 。 

# SSH Service back data filter 注 : 过 滤 建 立 TCP 连 接 后 收 到 的 数据 包 

# iptables -RAINPUT -ptcp - - dport 22 - -tcp- flags ALL ACK -m state -- state ESTABLISHED — 

j ACCEPT 

#iptables ~ A INPUT -Ptcp - - dport 22 - - tcp- flags ALL ACK, PSH -mstate - - state 

ESTABLISHED —j ACCEPT 

#iptables -有 INPUT -Ptcp - - dport 22 - - tcp- flags ALL ACK, FIN -mstate - - state 

ESTABLISHED —j ACCEPT 

# iptables -A INPUT -ptcp - - dport 22 - -tcp- flags ALL RST -m state -- state ESTABLISHED — 

j ACCEPT 

#iptables -有 INPUT - p tcp ~- - dport 22 - - tcp- flags ALL ACK, RST - m state - - state 

ESTABLISHED —j ACCEPT 

#iptables ~ A INPUT -~ p tcp - - dport 22 - - tcp- flags ALL ACK, URG -mm state - - state 

ESTABLISHED —j ACCEPT 


注 : 放行 正常 的 TCP 报 文 。 这 里 使 用 了 iptables 的 连接 跟踪 功能 ,就 是 -m state 
一 state, 因 为 TCP 连接 的 第 一 个 包 只 能 是 SYN 包 , 所 以 第 3 一 5 条 规则 只 允许 SYN 包 进 
入 ,这 样 就 防止 了 其 他 类 型 的 包 来 搅局 。 第 4、5 行 也 能 防止 伪造 源 IP 地 址 的 SYN 
FLood 攻击 。 第 6 一 9 条 规则 表示 过 滤 TCP 连接 已 建立 后 的 包 的 类 型 ,注意 --tcp-flags 
ALL 后 面 是 正常 的 包 , 如 根本 不 能 出 现 SYN/FIN 包 、FIN/RST 包 ,SYN/FIN/PSH 包 、 
SYN/FIN/RST 包 .SYN/FIN/RST/PSH 包 , 一 旦 出 现 这 样 的 包 说 明 被 攻击 了 。 


4.8 网 络 防 火 墙 
前 面 主要 介绍 了 主机 防火 墙 , 主 要 针对 filter 表 的 INPUT 链 和 OUTPUT 链 。 这 部 
分 开始 介绍 Iptables 网 络 防火 墙 的 主要 功能 ,主要 涉及 filter 表 的 FORWARD 链 。 
4.8.1 网 络 体系 
1. 网 络 防火 墙 拓扑 结构 


为 了 能 够 配置 网 络 防火 墙 , 先 来 设置 一 下 网 络 场景 ,如 图 4-53 所 示 。 

其 中 网 关 服 务 器 B 有 两 块 网 卡 ,连接 内 网 和 外 网 两 个 网 段 , 起 到 转发 作用 。 网 卡 
ethl 的 IP 地 址 为 10. 0. 0. 229, 连 接 内 部 网 络 的 网 段 为 10. 0. 0. 0/24, 此 内 部 网 络 中 存在 
Web 服务 器 C, 其 IP 地 址 为 10. 0. 0. 227/24; 服 务 器 B 网 卡 etho 的 IP 地 址 为 192. 168. 
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eth0: 192.168.1.229 


eth1: 10.0.0.229 接 入 层 交 换 机 


SS 


iptables 网 关 服 务 器 


< SS 
E 
RS 
D> 调试 Web 服 务 器 C 文件 服务 器 数据 库 服 务 器 
主机 A 的 IP 地 址 : IP 地 址 : 
192.168.1.109/24 10.0.0.227/24 


图 4-53 ”网络 防火 墙 拓扑 结构 


1. 229, 它 连接 外 部 网 络 , 对 应 网 段 192. 168. 1. 0/24 ,外 网 主机 A 对 应 的 IP 地 址 为 192. 
168. 1. 109/24。 

当主 机 A 访问 内 部 网 络 中 的 主机 C, 但 是 需要 主机 B 进行 转发 ,主机 B 在 转发 报 文 
时 会 进行 过 滤 , 以 实现 网 络 防火 墙 的 功能 。 

如 果 使 用 VMWARE 虚拟 机 模拟 上 述 网 络 环境 ,虚拟 机 A( 一 般 用 宿主 机 承担 ， 
Windows 系统 ) 与 虚拟 机 B 的 网 卡 2 使 用 了 桥接 模式 ,外 网 的 主机 的 网 关 指 向 B 的 eth0。 
模拟 内 网 将 虚拟 机 B 的 网 卡 ethl 与 虚拟 机 C 同时 使 用 仅 主机 模式 的 虚拟 网 络 ,内 网 主机 
的 网 关 指向 B 的 ethl 。 


2. 连通 测试 


根据 上 述 配 置 ,首先 测试 外 网 主机 A 与 B 的 两 个 
IP 连通 性 ,如 图 4-54 所 示 。 

上 述 连通 测试 结果 说 明 外 网 主机 A 可 以 ping 通 
防火 墙 服务 器 B 的 两 个 IP: 10. 0. 0. 229 和 192. 168. 
1. 229 ,而 不 能 ping 通 内 网 主机 C 的 IP: 10.0.( 7 

为 什么 主机 A(192. 168. 1. 109) 可 以 连通 主 机 上 B 
(10. 0. 0. 229)? 

IP 地 址 属于 主机 内 核 TCP/IP 模块 ,而 不 是 只 对 

网 络 接口 。 因 为 10. 0. 0. 229 和 192. 168. 1. 229 这 
两 个 IP 地 址 都 属于 主机 B, 当 主机 A 通过 路 由 表 将 
ping 报 文 发 送 到 主机 B 上 时 ,主机 B 发 现 自己 既是 
10. 0. 0. 229 又 是 192. 168. 1. 229 ,所 以 主机 B 就 接收 
并 直接 回应 了 主机 A, 所 以 主机 A 得 到 了 10. 0. 0. 229 


图 4-54 连通 性 测试 
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的 回应 。 

为 什么 主机 C 没有 回应 ? 

主机 A 通过 路 由 表 得 知 发 往 192. 168. 0. 0/24 网 段 的 报 文 的 网 关 为 主机 了 B, 当 报 文 到 
达 主 机 B 时 ,主机 B 发 现 主机 A 的 目标 为 10. 0.0. 227 ,而 自己 一 个 也 是 10.0.0.229, 这 
时 主机 B 则 需要 将 这 个 报 文通 过 eth0 接口 转发 给 10. 0. 0. 227( 也 就 是 主机 C) 。 但 是 在 
默认 情况 下 ,Linux 主机 转发 报 文 功能 没 打 开 ,Linux 主机 并 不 会 转发 报 文 。 这 就 是 为 什 
么 10.0.0.227 没有 回应 的 原因 ,因为 主机 也 根本 就 没有 将 主机 A 的 ping 请 求 转发 给 主 
机 C, 主 机 C 根本 就 没有 收 到 主机 A 的 ping 请 求 。 

想 要 主机 A 通过 防火 墙 服务 器 B 连通 主机 C, 需 要 设置 防火 墙 服务 器 B 的 转发 
功能 。 


4.8.2 Linux 主机 内 核 转发 功能 


通过 查看 /proc/sys/net/ipv4/ip_forward 文件 中 的 内 容 , 可 以 确定 Linux 主机 是 否 
打开 报 文 转发 功能 。 如 果 文 件 内 容 为 0, 则 表示 当前 主机 不 支持 报 文 转发 ,为 1 则 表示 当 
前 主机 支持 报 文 转发 。 


#cat /proc/sys/net/ipv4/ip forward 


如 果 内 容 为 0, 可 修改 为 1 打开 转发 功能 。 
@ 临时 开启 转 发 功能 : 


# echo 1 > /proc/sys/net/ipv4/ip forward 
或 者 通过 系统 控制 命令 修改 文件 内 容 为 1: 
#3ysctl] -w net .ipv4.ip forward=1 


@ 永久 开启 转发 功能 。 

上 述 两 种 方法 都 能 控制 是 否 开启 核心 转发 ,但 是 修改 的 系统 内 核 文件 只 能 临时 生效 ， 
当 重启 网 络 服务 以 后 ,核心 转发 功能 将 恢复 为 默认 值 。 如 果 想 要 永久 生效 ,需要 设 
种 /etc/sysctl. conf 文件 (centos7 中 配置 /usr/lib/sysctl. d/00-system. conf 文件 ) ,添加 
(或 修改 ) 配 置 项 net. ipv4. ip_forward 二 1 来 设 定 转发 功能 的 默认 值 为 开启 。 

打开 核心 转发 功能 后 ,主机 B 已 经 可 以 转发 报 文 ,现在 再 次 回 到 主机 A 可 以 ping 通 
主机 C。 


4.8.3 网 络 防火 墙 配置 


Iptables 作为 网 络 防火 墙 时 ,主要 负责 过 滤 表 (filter) 与 转发 链 (FORWARD) , 接 下 来 
介绍 在 filter 表 中 的 FORWARD 链 中 配置 规则 。 

准备 工作 : 确认 FORWARD 链 中 没有 任何 规则 ,默认 策略 为 ACCEPT( 白 名 单 ) ,在 
主机 B 中 FORWARD 链 的 末端 添加 一 条 默认 拒绝 所 有 的 规则 ,然后 将 要 放行 规则 设置 
在 这 条 默认 拒绝 规则 之 前 ,此 时 主机 A 和 主机 C 无 法 连通 ,启动 主机 C 的 Web 服务 以 便 
进行 测试 。 
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# iptables -A FORWARD -j DROP 先 关闭 一 

# iptables -I FORWARD 1 -d 10.0.0.227 -p tcp -dport 80 -j ACCEPT 放行 外 部 主机 对 内 网 web 访 

问 

此 时 主机 A 无 法 访问 到 主机 C 上 的 Web 服务 ,因为 只 在 主机 B 上 放行 了 外 部 主机 
访问 80 端口 的 请 求 , 但 是 并 没有 放行 内 部 主机 的 响应 报 文 ,所 以 仍然 需要 进行 如 下 设置 : 


# iptables -I FORWARD 2 -s 10.0.0.227 -p tcp - sport 80 -j ACCEPT 放行 外 部 主机 的 响应 报 文 


结果 如 图 4-55 所 示 。 


[root@B ~]# iptables -v -L FORWARD 
chain FORWARD (policy ACCEPT 0 packets, 0 bytes 
pkts bytes target prot opt in out source destination 


61 4915 ACCEPT top -- any any 10.0.0.227 anywhere top spt:http 

94 8254 ACCEPT top -- any any anywhere 10.0.0.227 top dpt:http 
2535 166K REJECT all -- any any anywhere anywhere reject-with i| 
cmp-port-unreachable 


图 4-55 开放 主机 C 的 Web 服务 


至 此 ,外 部 主机 可 以 访问 内 网 Web 服务 ,但 内 网 主机 不 能 访问 外 部 Web 服务 。 类 似 
地 ,要 开放 外 部 主机 对 内 网 的 远程 连接 服务 sshd, 同 样 需要 书写 两 条 规则 。 为 了 简化 规 
则 的 编写 ,结合 状态 扩展 的 功能 ,可 将 所 有 涉及 响应 报 文 的 规则 合并 如 下 : 


# iptables -D FORWARD 2 删除 原 有 响应 的 规则 

# iptables -I FORWARD 2 -d 10.0.0.227 -p tcp -dport 22 -j ACCEPT 开放 外 网 sshd 访 问 

# iptables - 工 FORWARD -m state - state RELATED, ESTABLISED - j ACCEPT 放行 内 外 网 双向 响应 数 
据 报 文 


最 后 配置 结果 如 图 4-56 所 示 。 


这 ronge~ - 口 ”4 
[roothB ~]# iptables -v -L FORWARD 
Chain FORWARD (policy ACCEPT 0 packets, 0 bytes 
Pkts bytes target Prot opt in out s destination 

0 0 ACCEPT all -- any any y state RELATED| 
,ESTABLISHED 

0 0 ACCEPT tcp -- any any 0 7 tcp dpt:ssh 


94 8254 ACCEPT tcp -- any any .0.0. top dpt:http 
2637 172K REJECT all -- any any ere reject-with 1 
cmp-port-unreachable 


图 4-56 利用 状态 扩展 合并 规则 


4.9 网 络 地 址 转换 


网 络 地 址 转换 (Network Address Translation ,NAT) 是 将 IP 数据 报头 中 的 IP 地 址 
转换 为 另 一 个 IP 地 址 的 过 程 。 在 实际 应 用 中 ,NAT 主要 用 于 实现 私有 网 络 访问 公共 网 
络 的 功能 。 这 种 通过 使 用 少量 的 公 网 IP 地 址 代表 较 多 的 私 网 IP 地 址 的 方式 ,将 有 助 于 
减缓 可 用 IP 地 址 空间 的 枯竭。 私 网 IP 地 址 是 指 内 部 网 络 或 主机 的 IP 地 址 , 公 网 全 地 
址 是 指 在 因特网 上 全 球 唯一 的 IP 地 址 

RFC 1918 为 私有 网 络 预 留 出 了 3 个 IP 地 址 块 
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A 类 : 10.0.0.0 一 10. 255. 255. 255 

了 类: 172. 16. 0. 0 一 172. 31. 255. 255 

C 类: 192. 168. 0. 0 一 192. 168. 255. 255 

上 述 3 个 范围 内 的 私有 地 址 不 会 在 因特网 上 被 分 配 , 因 此 可 以 不 必 向 ISP 或 注册 中 
心 申请 而 在 公司 或 企业 内 部 自由 使 用 。 

NAT 最 初 的 设计 目的 不 是 为 了 路 由 ,是 用 于 实现 私有 网 络 访问 公共 网 络 的 功能 ,后 
扩展 到 实现 任意 两 个 网 络 间 进 行 访问 时 的 地 址 转换 应 用 ,本 书 中 将 这 两 个 网 络 分 别称 为 
内 部 网 络 (内 网 ) 和 外 部 网 络 ( 外 网 ) ,通常 私 网 为 内 部 网 络 , 公 网 为 外 部 网 络 。 

NAT 主要 分 源 地 址 转换 (SNAT) 和 目标 地 址 转换 (DNAT) 两 种 。 


4.9.1 源 地 址 转换 


源 地 址 转换 : 主要 实现 将 了 报头 的 源 私 有 IP 地 址 转换 为 在 外 网 路 由 的 公有 卫 ， 

用 于 内 网 主机 访问 外 网 资源 ,如 图 4-57 所 示 。SANT 一 般 要 在 网 关 服 务 器 出 栈 

(POSTROUTING) 实 现 , 如 在 入 栈 实现 再 进行 路 由 ,导致 被 网 关 服 务 器 用 户 空间 接收 。 
Linux 网 关 服 务 器 


和 和 
| eth0: 218.29.30.31/30 加 


Www.google.com 
218.29.30.29 


eth1: 192.168.0.1/24 


内 网 PC 
192.168.0.100/24 
图 4-57 源 地 址 转换 
1. 源 地 址 转换 的 基本 原理 


未 使 用 SNAT 策略 时 数据 流向 如 图 4-58 所 示 。 
使 用 源 地 址 转换 数据 流向 如 图 4-59 所 示 。 


2. 源 地 址 转换 具体 实现 
在 网 关 防 火 墙 启 用 SNAT 


#iptables -tt nat -A POSTROUTING - s 192.168.10.0/24 ~-j SANT -to- source 172.16.100.7 


在 目标 Linux 主机 上 启用 抓 包 验 证 工具 tcpdump 
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Linux 网 关 服 务 器 
局 域 网 客户 端 eth1: 192.168.0.1 Internet 中 的 Web 服 务 器 
192.168.0.100 eth0: 218.29.30.31 218.29.30.29 


源 地 址 : 192.168.0.100 源 地 址 : 192.168.0.100 下 


目标 地 王 : 218.29.30.29 


目标 地 址 : 218.29.30.29 


= | 路 本 
HTTP 请 求 自 HTTP 请 求 
发 x HTTP 应 答 

天 
法 < 目标 地 下 192.1680I 
正 二 二 -一 | 
确 
路 
由 


4-58 未 使 用 SNAT 策略 时 数据 流向 


Linux 网 关 服 务 器 
局 域 网 客户 端 ethl: 192.168.0.1 Internet 中 的 Web 服 务 器 
192.168.0.100 eth0: 218 .29.30.31 218.29.30.29 


源 地 址 ， 192.168.0.100 


二 大 开 址 : 218.29.303T 二 
目标 地 址 : 218.29.30.29 


目标 地 王 : 218.29.30.29 


S 人 
HTTP 请 求 这 HTTP 请 求 
二 转 --____-____HITP 应 答 ___ 
源 地 址 : 218.29.30.29 换 源 地 址 ; 218.29.30.29 
耳 称 地 址 : 192.168.0.100 卢 是 奈 地 环 : 218.29.30.3 了 1 


图 4-59 使 用 源 地 址 转换 数据 流向 
#tcpdump -i eth0 - nn -X icmp 
在 源 主机 A 上 ping 目标 Linux 主机 ,查看 数据 包 的 源 IP 转换 成 172. 16. 100.7。 
4.9.2 目标 地 址 转换 


目标 地 址 转换 : 主要 实现 将 IP 报头 的 公有 目的 IP 地 址 转换 为 内 网 的 私有 IP, 用 于 
外 网 主机 访问 内 网 资源 。DNAT 一 般 要 在 入 栈 (PREROUTING) 实 现 , 如 在 出 栈 实现 再 
进行 路 由 ,出 栈 实现 已 经 晚 了 ,因为 路 由 决策 已 经 完成 。 


1. 目标 地 址 转换 的 基本 原理 


目标 地 址 转换 原理 如 图 4-60 所 示 。 
使 用 目标 地 址 转换 数据 流向 如 图 4-61 所 示 。 


2. DNAT 具体 实现 
外 网 客户 机 可 访问 内 网 服务 器 ,可 通过 DNAT 实现 。 
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Linux 网 关 服务 器 ci Ey 


{ 
Internet 


Www.benet.com 


eth0: 218.29.30.31/30 as 


eth1: 192.168.0.1/24 


Internet 中 的 客户 机 
218.29.30.29 
网 站 服务 器 SSH 服 务 器 
192.168.0.6/24 
图 4-60 目标 地 址 转换 
Linux 网 关 服 务 器 
局 域 网 内 的 Web 服 务 器 eth0: 218.29.30.31 Internet 中 的 客户 机 
192.168.0.6 eth1: 192.168.0.1 218.29.30.29 
源 地 址 : 218.29.30.29 
目标 地 址 ;192.168.0.5 目标 地 址 218.29.30.31 


HTTP 请 求 了 HTTP 请求 


HTTP 应 答 
| 源 地址 :192.168.0.6 
hE: 218.29.30.29 


HTTP 应 答 


tt pi 


全 地 址 : 218.2930.31 
目标 更 班 : 2T8.79.30. 


9.30.29 | > 


流 婚 口 > 工 口 


图 4-61 使 用 目标 地 址 转换 数据 流向 


首先 清空 网 关 服 务 器 ,设置 其 默认 规则 为 ACCEPT,A 和 B 分 别 指向 对 应 的 网 关 , 因 
为 路 由 转发 功能 打开 ,A、B 相互 ping 通 ,A 可 以 正常 访问 B 的 HTTP 与 FTP 服务 。 

A 的 网 关 取 消 ,A 不 能 访问 B 的 服务 ,A 只 能 访问 到 网 关 服 务 器 的 服务 ,可 将 访问 到 
网 关 服 务 器 的 服务 请 求 转换 到 内 网 : 


#iptables -t+t nat -及 PREROUTING -d 172.16.100.7 -P 80 -]j DNAT -to- destination 192.168. 
10.22 


A 可 访问 网 关 服 务 器 的 HTTP, 被 映射 到 内 网 B 中 ,可 在 B 通 过 抓 包 验证 。A 能 
ping 网 关 服务 器 ,但 ping 不 通 B。 

没 使 用 NAT 转换 时 ,宿主 机 (192. 168. 1. 109) 可 以 和 虚拟 机 B(10. 0. 0. 229) 相互 
ping 通 , 并 且 源 地 址 和 目的 地 址 未 经 转换 ,如 图 4-62 所 示 。 

在 网 关 防 火 墙 设置 源 地址 转换 ,将 主机 B 地 址 转换 网 关 出 口 地 址 192. 168. 1. 227 。 


#iptables -t nat - 工 POSTROUTING -ss 10.0.0.229 ~-j SNAT -一 to- source 192.168.1.227 
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A "以 太 网 host 192.168.1.109) 二 划 ， 攻 

文件 昌 ”编辑 但 视 固 (VW) 路 转 (G) 乱 匡 OO 分析 和 纺 HfG， 电话 mW 工具 D 帮助 t 册 

[a 加 册 间 9 名 村 宇 QQQE 

[Ti a i en Nn 9 画 EE 了 -] 来 达 或 * 和 

Wo Tine are Testination Protocol Lengt} Info 

55 51.713872 192.168.1.199 ICMP 98 Echo (ping) request id-8xbe87，seq=1/256,-. 
57 52.719278 192.168.1.199 ICMP 98 Echo (ping) request id-8xbe87，seq=2/512,~ 
59 53.734847 192.168.1.169 ICMP 98 Echo (ping) request id-8xbe87，seq=3/768,- 
63 54.750606 192.168.1.199 ICMP 98 Echo (ping) request id-8xbe87，seq=4/1924- 


图 4-62 未 经 NAT 数据 转发 过 程 


使 用 NAT 转换 后 ,虚拟 机 B 在 ping 宿主 机 时 , 源 地 址 10. 0. 0. 229 被 转换 成 网 关 出 
口 地 址 ,在 宿主 机 抓 包 显 示 结 果 不 再 有 源 10. 0. 0. 229 数据 包 , 只 有 源 192. 168. 1. 227 的 
数据 包 , 如 图 4-63 所 示 。 


A "心太 网 (host 192.158.1.109) 一 口 

文件 昌 ”编辑 视图 V) 跳 转 (GO 捕获 四 分析 和 统计 全 电 活 m 无 续 (W) 工具 中 帮助 HH) 

am © 

DIE 站 E 3] 和 区” + ze 

加 Tine ET je Protocel Laneth Infe 
722 576.886162 192.168.1.227 192. 168. i 199 ICMP 98 Echo (ping) request id-9x2488，seq=2/5- 
723 576.888253 192.168.1.199 192.168.1.227 ICMP 98 Echo (ping) reply id=-8x2488，seq=2/5- 
726 577.895499 192.168.1.227 192.168.1.199 ICMP 98 Echo (ping) request id-8x2498，seq-3/17- 
727 577.895633 192.168.1.199 192.168.1.227 ICMP 98 Echo (ping) reply id-Ox2488, seq=3/7.. 


图 4-63 经 NAT 数据 转发 过 程 


在 网 关 服 务 器 上 显示 SNAT 规则 有 匹配 ,如 图 4-64 所 示 。 


图 4-64 SANT 规则 匹配 情况 


4.10 应 用 层 过 滤 防 火 墙 


Iptables 防火 墙 主要 针对 TCP/IP 数据 包 实 施 过 滤 和 限制 ,属于 典型 的 包 过 滤 防 火 
当 。 以 基于 网 络 层 的 数据 包 过 滤 机 制 为 主 , 同 时 提供 少量 的 传输 层 `. 数 据 链 路 层 的 过 滤 功 
能 。Iptables 防火 墙 无 法 判断 数据 包 所 对 应 的 上 层 应 用 程序 (如 QQ、 迅 雷 等 ) ,所 以 无 法 
直接 针对 具体 应 用 程序 进行 限制 。 要 通过 Iptables 防火 墙 实现 对 应 用 程序 管理 , 则 需要 
重新 编译 内 核实 现 Iptables 防火 墙 应 用 层 (layer 7, 简 写 17) 过 滤 。 

实现 应 用 层 过 滤 防 火 墙 的 基本 流程 包括 : 
重新 编译 Linux 内 核 ,添加 17-filter 应 用 层 过 滤 补丁 ; 
和 新 编译 iptables ,添加 17-filter 应 用 层 过 滤 补 丁 ; 
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@ 安装 17-protocols 协议 包 ,支持 相关 应 用 程序 特征 ; 
@ 设置 过 滤 规 则 ,控制 使 用 QQ、 迅 雷 应 用 程序 。 


4.10.1 检查 现 有 软件 环境 


为 了 确保 编译 后 原 有 应 用 程序 正常 运行 ,一 般 重新 编译 内 核 的 版 本 与 原 内 核 一 致 。 
同 理 Iptables 防火 墙 也 需要 重新 编译 安装 。 准 备 相 关 软 件 包 前 检查 现 有 软件 版 本 : 

# uname -sr 系统 版 本 centos 6.6 查看 其 内 核 版 本 

#rpm -qa | grep iptables 查看 现 有 防火 墙 版 本 

#yum - Y groupinstall "Development tools" "Server Platform Development" 

所 需 的 软件 包 列 表 如 下 。 

Linux 内 核 源 码 包 . linux-2. 6. 32. 9. tar. gz。 

layer7 补丁 包 源 码 包 : netfilter-layer7-v2. 23. tar. gz。 

Iptables 源码 包 : iptables-1. 4. 7. tar. bz2。 

17 层 协 议定 义 包 : 17-protocols-2009-05-28. tar. gz。 


4.10.2 编译 内 核 


通过 重新 编译 内 核 , 实 现 对 应 用 层 过 滤 的 支持 ,主要 包括 配置 、 编 译 、 安 装 内 核 模块 、 
修改 启动 配置 等 步骤 。 


1. 准备 工作 

解压 缩 内 核 到 /usr/src: 

#tar xzvf linux- 2.6.32.9.tar.gz -C /usr/src 

解压 缩 内 核 应 用 层 过 滤 补 丁 到 /usr/src: 

#tar xzvf netfilter- layer7-v2.23.tar.gz-C /usr/src 
将 解压 缩 后 的 内 核 目录 软 链接 为 Linux 目录 : 


#cd /usr/src/ 


#1n -sn linux- 2.6.32.9/ linux 


准备 好 的 目录 结构 如 图 4-65 所 示 。 


2 root root 4096 Sep 23 2011 


3 root root 4096 Jun 12 03:29 
1 root root 15 Nov 11 19:25 linux -> 
23 root root 4096 Feb 23 2010 
3 root root 4096 Nov 11 19:20 


图 4-65 目录 结构 


给 内 核 打 应 用 层 过 滤 补 丁 , 如 图 4-66 所 示 。 
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#cd linux 


#patch -pl < .-/netfilter- layer7- v2.23/kernel— 2.6.32- layer7- 2.23.patch 


[z OD 双 
[rootB@A src]# cd linux 
[rooteA linux]# patch -pl <../netfilter-layer7-v2,23/kernel-2.6.32-1 
layer7-2.23.patch 
patching file net/netfilter/Kconfig 
IHunk #1 succeeded at 858 (offset 63 lines). 
patching file net/netfilter/Makefile 
IHunk #1 succeeded at 89 (offset 5 lines). 
file net/netfilter/xt layer7.c 
file net/netfilter/regexp/regexp.c 
file net/netfilter/regexp/regexp.h 
file net/netfilter/regexp/regmagic.h 
file net/netfilter/regexp/re: 
file net/netfilter/nf ， 
IHunk #1 succeeded at 201 with fuzz 1. 
patching file net/netfilter/nf conntrack : 
IHunk #1 succeeded at 171 with fuzz 2 (offset 6 lines). 
patching file include/net/netfilter/nf conntrack.h 
Hunk #1 succeeded at 116 (offset -2 lines). 
patching file include/linux/netfilter/xt layer7.h 


图 4-66 对 内 核 打 补丁 


2. 配置 内 核 包含 的 模块 
QO 安装 编译 内 核 所 需 的 依赖 包 


# Yum install ncurses- devel 


@ 复制 原 内 核 编译 配置 文件 到 Linux 目录 中 ,在 原 有 模块 基础 上 进行 编译 ,启动 应 
用 层 过 滤 功 和 


#cp /boot/config- 2.6.32- 573.26.1.e16.x86 64 .config. 
加 开始 配置 。 
#make menuconfig 


进入 编译 内 核 界面 如 图 4-67 所 示 
@ 添加 layer7 模块 ,结果 如 图 4-68 所 示 。 


Networking support — > Networking options ->Network packet filtering framework (Netfilter) 
-> Core Netfilter Configuration ->"layer7" match support 


加 对 内 核 的 名 称 进行 果 如 图 4-69 所 示 。 


示 记 修改 ,z 


3. 编译 并 安装 内 核 
中 编译 内 核 。 
#make 


需要 一 定 的 时 间 , 同 时 确保 有 足够 的 磁盘 空间 。 
@ 安装 内 核 所 需要 的 模块 。 


#make modules install 
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图 4-69 对 新 内 核 进行 标记 


@ 安装 编译 后 的 内 核 。 
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#make install 


安装 过 程 可 能 提示 缺少 相应 的 模块 ,可 将 旧 内 核 库 中 的 相应 模块 复制 到 新 内 核 库 


/lib/modules/2. 6. 32. 9-layer7/kernel/drivers/misc/ 中 。 
4. 修改 启动 配置 启动 新 内 核 


#vi /boot/grub/grub.conf 
启用 新 内 核 菜单 如 图 4-70 所 示 。 


GNU GRUB version 8.97 (6358 lower / 1846489K upper nenory) 


and 4 keys to select which entry is highlighted 

jr to boot tho soloctod 0S, 'o’ to odit tho 

efore booting, ‘a’ to rodify the kernel argunents 
before booting, or ‘c' for a conpand-line. 


图 4-70 启用 新 内 核 


5. 重新 编译 iptables 


重新 编译 iptables 是 使 用 户 空间 的 iptables 命令 支持 layer7 语法 规则 。 
O@ 准备 iptables 源 文件 及 netfilter-layer7 


#tar xjvf iptables-1.4.7.tar.bz2 -C /usr/src 

#tar xzvf netfilter- layer7- v2.23.tar.gz-C /usr/src 

#cd /usr/src/iptables-1.4.7/ 

#cp ../netfilter- layer7- v2.23/iptables- 1.4.3forward- for- kernel- 2.6.20forward/libxt_ 
layer7. * ./extensions/ 复 制 17 的 模块 和 man 文 件 到 iptables 的 扩展 


@ 备份 原 iptables 服务 启动 文件 及 配置 文件 备用 。 


#cp /etc/rc.d/init.d/iptales /root 复制 iptables 脚本 
#cp /etc/sysconfig/iptables- config /root 复制 配置 文件 
# cp /etc/sysconfig/iptables /tmp/iptables-rule ”复制 规则 文件 


@ 开始 编译 带 有 扩展 功能 的 iptables 


#rpm -e iptablesiptables- ipv6 - -nodeps 
# ./configure - -prefix= /usr -- with- ksource= /usr/src/linux 

#make 

#make install 

# which iptables 查看 编译 安装 的 iptables 的 路 径 为 /usr/sbin/iptables 

# vim /root/iptables 修改 备份 的 iptables 脚本 文件 ,更 正路 径 /sbin/$IPTABLES - -> /usr/sbin/ 
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$IPTABLES 
# cp /root/iptables /etc/rd.d/init.d/ 复制 脚本 文件 
# cp /root/iptables- config /etc/sysconfig/ 复制 配置 文件 
# cp /root/iptables- rule /etc/sysconfig/iptables 复制 规则 


@ 编译 安装 17proto ,使 iptables 支持 应 用 层 协 议 。 


#tar xzvf 17-Protocols- 2009- 05- 28.tar .gz 
#cd 17- protocols- 2009- 05- 28 


#make install ”将 文件 夹 内 的 应 用 层 协 议 的 特征 码 复制 到 /etc 下 
@ 启动 新 防火 墙 。 


# service iptables start 


如 果 出 现 iptables: No config file [WARNING]! 错误 ,应 该 就 是 /etc/sysconfig/ 
iptables 规则 备份 文件 不 存在 ,可 随意 写 一 条 防火 墙 规则 ,如 iptables -P OUTPUT 
ACCEPT, 然 后 使 用 service iptables save 生成 iptables 文件 ,下 次 再 启动 iptables 时 不 再 
显示 警告 信息 。 
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本 章 主要 介绍 计算 机 集群 的 基本 概念 ,分 类 ,特点 ,重点 介绍 负载 均衡 集群 ,高 可 用 集 
群 及 数据 库 集群 的 性 能 及 配置 。 随 着 计算 机 任务 的 日 益 复杂 ,如 天 气 预 报 、 资 源 勘探 \、 计 
算 机 模拟 等 应 用 需要 很 强 的 运算 处 理 能 力 , 即 使 用 普通 的 大 型 机 器 计算 也 很 难 胜任 。 每 
个 复杂 应 用 都 要 使 用 服务 器 提供 计算 资源 一 一 处 理 周期 ,内存 空间 网络 和 磁盘 I/O, 工 
作 负 载运 行 需要 这 些 资源 , 随 着 工作 负载 激增 和 计算 需求 增长 ,服务 器 资源 必须 增长 或 扩 
展 以 满足 这 些 需 求 , 这 主要 通过 如 下 两 种 途径 。 


1. 向 上 扩展 (scale on) 


增加 单个 服务 器 的 硬件 资源 ,如 调 大 内 存 容 量 和 增加 CPU 数量 ,简单 说 就 是 升级 服 
务 器 硬件 。 缺 点 :一 是 成 本 高 ,二 是 在 一 定 的 范围 之 内 它 的 性 能 是 上 升 的 趋势 ,但 是 超出 
范围 之 后 就 是 下 降 的 趋势 。 因 为 随 着 CPU 个 数 增加 需要 进行 CPU 仲裁 ,而 且 随 着 CPU 
个 数 的 增加 资源 竞争 性 也 会 增 大 。 


2. 向 外 扩展 (scale out) 


一 台 服 务 器 资源 不 足 ,无 法 完成 复杂 任务 时 ,可 以 增加 更 多 的 服务 器 ,或 者 说 向 外 扩 
展 。 优 点 : 增 减 服务 器 很 方便 ,而 且 不 会 随 着 向 上 扩展 增加 而 性 能 下 降 。 

向 外 扩展 架构 也 包括 集群 或 分 布 式 计算 方法 ,多 台 服 务 器 共同 承担 单个 复杂 应 用 系统 
的 计算 负载 。 例 如 , 某 个 关键 任务 工作 负载 可 能 运行 在 两 台 或 更 多 服务 器 上 ,进程 可 以 跨 这 些 
服务 器 以 主动 配置 模式 分 配 ;如 果 其 中 一 台 服 务 器 出 现 故障 ,其 他 服务 器 可 以 接管 ,使 应 用 系 
统 的 可 用 性 得 到 保障 ,如 果 需 要 更 多 的 宛 余 ,集群 可 以 增加 更 多 的 服务 器 进行 向 外 扩展 。 


5.1 大 型 网 站 系统 架构 的 演进 


一 个 成 熟 的 大 型 网 站 (如 淘宝 、 京 东 等 ) 的 系统 架构 并 不 是 开始 设计 就 具备 完整 的 高 
性 能 、 高 可 用 ,安全 等 特性 , 它 总 是 随 着 用 户 量 的 增加 ,业务 功能 的 扩展 逐渐 演变 完善 的 ， 
在 这 个 过 程 中 ,开发 模式 ,技术 架构 ,设计 思想 也 发 生 了 很 大 的 变化 ,就 连 技 术 人 员 也 从 几 
个 人 发 展 到 一 个 部 门 甚至 一 条 产品 线 。 所 以 成 熟 的 系统 架构 是 随 业务 扩展 而 完善 出 来 
的 ,并 不 是 一 趴 而 就 。 不 同业 务 特征 的 系统 ,会 有 各 自 的 侧重 点 ,如 淘宝 ,要 解决 海量 的 商 
品 信 息 的 搜索 、 下 单 . 支 付 ;如 腾讯 ,要 解决 数 亿 的 用 户 实时 消息 传输 ;百度 要 处 理 海量 的 搜 
索 请 求 ,它们 都 有 各 自 的 业务 特性 ,系统 架构 也 有 所 不 同 。 接 下 来 主要 从 这 些 不 同 的 网 站 背 
景 下 找 出 其 中 共用 的 技术 ,这 些 技术 和 手段 可 以 广泛 运行 在 大 型 网 站 系统 的 架构 中 。 


1. 最 初 的 网 站 架构 
最 初 简单 的 架构 中 ,应 用 程序 ,数据库 .文件 都 部 署 在 同一 台 服 务 器 上 ,如 图 5-1 所 示 。 
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服务 器 


文件 


_ 数据 库 _ 


5-1 最 初 的 网 站 架构 


2. 应 用 、 数 据 、 文 件 分 离 结 构 
随 着 业务 的 扩展 ,一 台 服 务 器 已 经 不 能 满足 性 能 需求 , 故 将 应 用 程序 ,数据库 ,文件 分 
别 部 署 在 独立 的 服务 器 上 ,如 图 5-2 所 示 , 并 且 根据 服务 器 的 用 途 配置 不 同 的 硬件 ,达到 
最 佳 的 性 能 效果 。 
文件 部 署 在 文件 服务 器 上 


数据 库 部 署 在 数据 库 服务 器 上 
图 5-2 应 用 数据 ,文件 分 离 结构 


3. 利用 缓存 改善 网 站 性 能 


在 硬件 优化 性 能 的 同时 ,同时 也 通过 软件 进行 性 能 优化 ,在 大 部 分 的 网 站 系统 中 ,都 
会 利用 缓存 技术 改善 系统 的 性 能 ,使 用 缓存 主要 源 于 热点 数据 的 存在 ,大 部 分 网 站 访问 都 
遵循 “二 八 原则 ”( 即 80% 的 访问 请 求 ,最 终 落 在 20% 的 数据 上 ), 所 以 可 以 对 热点 数据 进 
行 缓存 ,减少 这 些 数据 的 访问 路 径 , 如 图 5-3 所 示 ,提升 用 户 体验 。 

缓存 实现 常见 的 方式 有 本 地 缓存 和 分 布 式 缓存 ,同时 还 有 CDN、 反 向 代理 等 。 本 地 
缓存 是 将 数据 缓存 在 应 用 服务 器 本 地 ,可 以 存在 内 存 中 ,也 可 以 存在 文件 中 ,OSCache 就 
是 常用 的 本 地 缓存 组 件 。 本 地 缓存 的 特点 是 速度 快 ,但 因为 本 地 空间 有 限 所 以 缓存 数据 
量 也 有 限 。 分 布 式 缓存 可 以 缓存 海量 的 数据 ,并 且 扩 展 非常 容易 ,在 门户 类 网 站 中 常常 被 
使 用 ,速度 一 般 没 有 本 地 缓存 快 ,常用 的 分 布 式 缓存 有 Membercache 和 Redis。 
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文件 部 署 在 文件 服务 器 上 


(分 布 式 缓存 ) 
分 布 式 缓存 服务 器 1 


(分 布 式 缓存 ) 
分 布 式 缓存 服务 器 2 


图 5-3 利用 缓存 改善 网 站 性 能 的 结构 


4. 使 用 集群 改善 应 用 服务 器 性 能 


应 用 服务 器 作为 网 站 的 入 口 ,会 承担 大 量 的 请 求 ,往往 通 过 应 用 服务 器 集群 来 分 担 请 
求 数 。 应 用 服务 器 前 面部 署 负载 均衡 服务 器 调度 用 户 请 求 , 根 据 分 发 策略 将 请 求 分 发 到 
多 个 应 用 服务 器 节点 ,如 图 5-4 所 示 。 

常用 的 硬件 负载 均衡 技术 的 产品 有 F5, 价 格 比 较 贵 ;软件 的 负载 均衡 有 LVS、 
Nginx、HAProxy 等 实现 方式 。LVS 是 传输 层 ( 四 层 ) 负 载 均 衡 , 根 据 目 标 地 址 和 端口 选 
择 内 部 服务 器 ,Nginx 和 HAProxy 是 应 用 层 (七 层 ) 负 载 均 衡 , 可 以 根据 报 文 内 容 选择 内 
部 服务 器 ,因此 LVS 分 发 路 径 优 于 Nginx 和 HAProxy, 均 衡 性 能 要 高 些 ,而 Nginx 和 
HAProxy 则 更 具 配置 性 ,如 可 以 用 来 做 动静 分 离 (根据 请 求 报 文 特征 ,选择 静态 资源 服务 
器 还 是 应 用 服务 器 ) 。 


5. 数据 库 读 写 分 离 和 分 库 分 表 


随 着 用 户 量 的 增加 ,数据库 成 为 最 大 的 瓶颈 ,改善 数据 库 性 能 常用 的 手段 是 进行 读 写 
分 离 以 及 分 表 , 读 写 分 离 就 是 将 数据 库 分 为 读 库 和 写 库 ,通过 主 备 功能 实现 数据 同步 。 分 
库 分 表 则 分 为 水 平 切 分 和 垂直 切 分 ,水 平 切 分 则 是 对 一 个 数据 库 特 大 的 表 进 行 拆 分 ,如 用 
户 表 。 垂 直 切 分 则 是 根据 业务 不 同 来 切 分 ,如 用 户 业 务 .商品 业务 相关 的 表 放 在 不 同 的 数 
据 库 中 ,如 图 5-5 所 示 。 


6. 使 用 CDN 和 反 向 代理 提高 网 站 性 能 
假如 服务 器 都 部 署 在 成 都 的 机 房 , 对 于 四 川 的 用 户 来 说 访问 是 较 快 的 ,而 北京 的 用 户 


第 5 章 集群 系统 一 一 LVS 157 


应 用 服务 器 集群 


十 数据 库 服务 器 
负载 均衡 服务 器 下 


(分 布 式 缓存 ) 
分 布 式 缓存 服务 器 


图 5-4 负载 均衡 集群 结构 


应 用 服务 器 集群 


和 一 昌黎 上 


应 用 服务 器 2 
负载 均衡 服务 器 ” 。”( 本 地 缓存 ) 


分 布 式 缓存 服务 器 1 | 
(分 布 式 缓存 ) 


分 布 式 缓存 服务 器 2 愉 
(分 布 式 缓存 ) 


5-5 数据 库 分 离 结构 


访问 是 较 慢 的 ,这 是 由 于 四 川 和 北京 分 别 属于 电信 和 联通 的 不 同 地 区 ,北京 用 户 访问 需要 
通过 互联 路 由 器 经 过 较 长 的 路 径 才 能 访问 到 成 都 的 服务 器 ,所 以 数据 传输 时 间 比 较 长 。 
CDN 技术 可 将 数据 内 容 缓 存 到 运营 商 的 机 房 ,用 户 访问 时 先 从 最 近 的 运营 商 获 取 数 据 ， 
这 样 大 大 减少 了 网 络 访问 的 路 径 。 比 较 专 业 的 CDN 运营 商 有 蓝 汛 和 网 宿 。 

而 反 向 代理 , 则 是 部 署 在 网 站 的 机 房 , 当 用 户 请 求 达到 时 首先 访问 反 向 代理 服务 器 ， 
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反 向 代理 服务 器 将 缓存 的 数据 返回 给 用 户 ,如果 没有 缓存 数据 才 会 继续 向 应 用 服务 器 获 
取 , 也 减少 了 获取 数据 的 成 本 。 反 向 代理 有 Squid 和 Nginx。 图 5-6 主要 介绍 了 CDN 和 
反 向 代理 网 站 结构 。 


CDN 服 务 器 


ye 应 用 服务 器 2 


负载 均衡 服务 器 (本 地 缓存 ) 


yy 


分 布 式 缓存 服务 器 1 
(分 布 式 缓存 ) 


Ey 


分 布 式 缓存 服务 器 2 
(分 布 式 缓存 ) 


图 5-6 CDN 和 反 向 代理 网 站 结构 


7. 使 用 分 布 式 文件 系统 


随 着 用 户 增加 ,业务 量 越 来 越 大 ,产生 的 文件 越 来 越 多 , 单 台 的 文件 服务 器 已 经 不 能 
满足 需求 。 需 要 分 布 式 的 文件 系统 支撑 ,如 图 5-7 所 示 。 常 用 的 分 布 式 文件 系统 有 NFS。 


8. 使 用 Nosql 和 搜索 引擎 


对 于 海量 数据 的 查询 ,使 用 Nosql 数据 库 加 上 搜索 引擎 可 以 获得 更 好 的 性 能 ,图 5-8 
显示 了 海量 数据 的 查询 架构 ,并 不 是 所 有 的 数据 都 要 放 在 关系 型 数据 中 。 常 用 的 Nosql 
有 mongodb 和 redis ,搜索 引擎 有 lucene。 


9. 将 应 用 服务 器 进行 业务 拆 分 


随 着 业务 进一步 扩展 ,应 用 程序 变 得 非常 腾 肿 ,这 时 需要 将 应 用 程序 进行 业务 拆 分 ， 
如 百度 分 为 新 闻 、 网 页 .图片 等 业务 。 每 个 业务 应 用 负责 相对 独立 的 业务 运作 。 业 务 之 间 
通过 消息 进行 通信 或 者 同 享 数据 库 来 实现 。 图 5-9 为 业务 拆 分 结构 图 。 


10. 搭建 分 布 式 服务 
业务 拆 分 后 各 个 业务 应 用 都 会 使 用 到 一 些 基本 的 业务 服务 ,如 用 户 服务 .订单 服务 、 


第 5 章 集群 系统 一 LVS 159 


文件 服务 器 


SA 
数据 库 服务 器 


负载 均 衡 服务 器 应 全 服务 由 


分 布 式 缓存 服务 器 1 
(分 布 式 缓存 ) 


存 
分 布 式 缓存 服务 器 2 
(分 布 式 缓存 ) 


图 5-7 分 布 式 文件 系统 结构 


Eg , 
"| 数据 库 服务 器 
应 用 服务 器 2 


负载 均衡 服务 器 (本 地 缓 季 ) 
分 布 式 缓存 服 务 器 


| (分 布 式 缓存 ) 
数据 库 © ER 分 布 式 缓存 服务 器 2 
让 (分 布 式 缓存) 
Nosql 数 据 库 。 搜索 引擎 


图 5-8 海量 数据 查询 结构 


支付 服务 .安全 服务 等 ,这 些 服务 是 支撑 各 业务 应 用 的 基本 要 素 。 将 这 些 共 有 的 服务 抽取 
出 来 利用 分 布 式 服务 框架 搭建 分 布 式 服务 ,如 图 5-10 所 示 ,淘宝 的 Dubbo 是 具体 实现 的 
实例 。 
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消息 队列 服务 器 


£9 


应 用 服务 器 集群 


二 


A 业务 应 用 服务 器 1 


数据 库 服务 器 


A 业务 应 用 服务 器 2 


(本 地 缓存 ) 
了 分 布 式 缓存 服务 器 1 
(分 布 式 缓存 ) 
数据 库 © 分 布 式 缓存 服务 器 2 
(分 布 式 缓存 ) 


Nosql 数 据 库 。 搜索 引擎 
图 5-9 业务 拆 分 结构 


分 布 式 服务 调度 服务 器 


(Dubbo) 包 括 用 户 服务 、 
人 订单 服务 、 支 付 服务 等 
B 业 务 应 用 服务 器 到 二 晴 消息 队列 服务 器 


请 


A 业务 应 用 服务 器 1 


数据 库 服务 器 
A 业务 应 用 服务 器 2 
(本 地 缓存) 
分 布 式 缓存 服务 器 1 
(分 布 式 缓 ) 
数据 库 © 分 布 式 缓存 服务 器 2 
(分 布 式 缓存 ) 


Nosql 数 据 库 。” 搜索 引擎 
图 5-10 分布 式 服务 结构 
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5.2 集群 介绍 


计算 机 集群 (Cluster) ,可 以 把 多 台 计 算 机 连接 在 一 起 使 用 ,平分 资源 或 互 为 保障 。 
服务 器 集群 就 是 指 将 很 多 服务 器 集中 起 来 一 起 进行 同一 种 服务 ,在 客户 端 看 来 就 只 是 一 
个 服务 器 。 集 群 通信 系统 是 一 种 计算 机 系统 , 它 通 过 一 组 松散 集成 的 计算 机 软件 和 硬件 
连接 起 来 高 度 紧密 地 协作 完成 计算 工作 。 构 建 集群 是 为 了 解决 单机 运算 能 力 的 不 足 、 
1/O 能 力 的 不 足 、 提 高 服务 的 可 靠 性 、 获 得 规模 可 扩展 能 力 ,降低 整体 方案 的 运 维 成 本 ( 运 
行 .升级 ,维护 成 本 )。 通 过 集群 技术 可 实现 以 下 目的 。 

(1) 提高 性 能 。 

一 些 计算 密集 型 应 用 ,如 天 气 预 报 、 核 试验 模拟 等 ,需要 计算 机 有 很 强 的 运算 处 理 能 
力 , 现 有 的 技术 ,即使 普通 的 大 型 计算 机 器 也 很 难 胜任 。 这 时 ,一 般 都 使 用 计算 机 集群 技 
术 ,集中 几 十 台 甚 至 上 百 台 计算 机 的 运算 能 力 来 满足 要 求 。 提 高 处 理性 能 一 直 是 集群 技 
术 研 究 的 重要 目标 之 一 。 

(2) 降低 成 本 。 

通常 一 套 较 好 的 集群 配置 ,其 软 硬 件 开销 要 与 价值 上 百 万 美元 的 专用 超级 计算 机 相 
比 已 属相 当 便宜 。 在 达到 同样 性 能 的 条 件 下 ,采用 计算 机 集群 比 采用 同等 运算 能 力 的 大 
型 计算 机 具有 更 高 的 性 价 比 。 

(3) 提高 可 扩展 性 。 

用 户 若 想 扩展 系统 能 力 ,不 得 不 购买 更 高 性 能 的 服务 器 ,才能 获得 额外 所 需 的 
CPU 和 存储 器 。 如 果 采 用 集群 技术 , 则 只 需要 将 新 的 服务 器 加 入 集群 中 即 可 ,对 于 客 
户 来 说 ,服务 无 论 从 连续 性 还 是 性 能 上 都 几乎 没有 变化 ,好 像 系 统 在 不 知 不 觉 中 完成 
了 升级 。 

(4) 增强 可 靠 性 。 

集群 技术 使 系统 在 故障 发 生 时 仍 可 以 继续 工作 ,将 系统 停 运 时 间 减 到 最 小 。 集 群 系 
统 在 提高 系统 的 可 靠 性 的 同时 ,也 大 大 减 小 了 故障 损失 。 

集群 中 的 每 个 计算 机 被 称 为 一 个 节点 ,节点 可 添加 可 减少 ,在 这 些 节 点 之 上 虚拟 出 一 
台 计算 机 供用 户 使 用 ;从 用 户 的 角度 看 始终 是 使 用 一 台 计 算 机 ,无 所 谓 多 少 节点 。 

如 图 5-11 所 示 ,其 中 多 台 计 算 机 可 以 共同 分 担 资源 ,也 可 以 互 为 保障 ,节点 之 间 的 工 
作 方 式 取决 于 不 同 的 集群 技术 ,不 同 厂商 实现 方式 会 有 不 同 。 

当下 流行 的 集群 技术 可 分 为 以 下 3 种 : HA 高 可 用 集群 .负载 均衡 集群 和 并 行 计算 
集群 。 


1. HA 高 可 用 集群 


高 可 用 集群 (High availability Cluster, HAC) 主 要 用 于 高 可 用 解决 方案 的 实现 ,节点 
间 以 主 备 形式 ,实现 容 灾 ; 在 大 型 故障 ( 宕 机 ,服务 器 故障 ) 的 情况 下 实现 快速 恢复 ,快速 提 
供 服 务 。 如 图 5-12 所 示 : 当前 节点 在 Node01, 所 有 业务 在 Node01 上 运行 , 若 发 生 故 障 
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用 户 


虚拟 计算 机 


台 计 算 机 
Node01 Node02 Node03 Node04 Node N 
图 5-11 集群 基本 模式 图 


服务 和 资源 会 转移 到 Node02 上 。 高 可 用 集群 的 另 一 个 特点 是 共享 资源 ,多 个 节点 服务 
器 共享 一 个 存储 资源 ,该 存储 可 在 不 同 节点 之 间 转 移 。 


用 户 


虚拟 计算 机 


存储 
图 5-12 高 可 用 集群 模式 图 


高 可 用 集群 可 实现 以 下 3 种 方式 。 

(1) 主 从 方式 : 主 从 服务 器 结构 及 业务 相同 ,平时 主 服务 器 工作 ,备用 服务 器 监控 。 
当主 服务 器 出 现 问题 时 ,业务 切换 到 从 服务 器 。 此 方式 不 能 有 效 地 利用 备用 服务 器 资源 。 

(2) 互 为 主 从 : 两 服务 器 同时 在 线 并 且 和 运行 不 同 的 业务 ,一 台 服 务 器 故障 可 将 其 业 
务 切 换 到 另 一 台 服 务 器 上 。 此 方式 有 效 地 利用 服务 器 资源 ,但 当 服 务 器 故障 时 , 另 一 台 服 
务 器 上 要 运行 多 个 业务 。 

(3) 多 台 服 务 器 主 从 : 大 部 分 服务 器 在 线 使 用 ,小 部 分 服务 器 监控 ; 若 有 部 分 服务 器 
故障 ,可 切换 到 指定 的 小 部 分 服务 器 上 。 此 方式 综合 了 前 两 种 方式 。 然 后 多 台 服 务 器 集 
群 ,增加 了 管理 的 复杂 度 。 

在 高 可 用 系统 中 , 当 联 系 两 个 节点 的 “心跳 线 ” 断 开 时 ,本 来 为 一 整体 ,动作 协调 的 
HA 系统 ,就 分 裂 成 为 两 个 独立 的 个 体 ,出 现 脑 裂 现象 (Split-brain)。 由 于 相互 失去 了 联 


第 5 章 集群 系统 一 LVS 163 


系 ,都 以 为 是 对 方 出 了 故障 , 争 抢 * 共 享 资源 ”和 * 应 用 服务 ”, 就 会 发 生 共享 资源 被 瓜分 、2 
边 “ 服 务 ” 都 起 不 来 的 严重 后 果 ; 或 者 2 边 * 服 务 " 都 起 来 了 ,但 同时 读 写 * 共 享 存储 ”, 导 致 
数据 损坏 (如 数据 库 轮 询 着 的 联机 日 志 出 错 ) 。 

对 付 HA 系统 “ 脑 裂 * 的 对 策 , 目 前 达成 共识 的 大 概 有 以 下 几 条 。 

(1) 添加 元 余 的 心跳 线 ,例如 用 双 线 条 线 ( 心 跳 线 也 高 可 用 ) 尽 量 减 少 “ 脑 裂 * 发 生 
概率 ; 

(2) 启用 磁盘 锁 。 正 在 服务 一 方 锁 住 共享 磁盘 ,“ 脑 裂 " 发 生 时 ,让 对 方 完 全 “ 抢 不 走 ” 
共享 磁盘 资源 。 但 使 用 锁 磁 盘 也 会 有 一 个 不 小 的 问题 ,如 果 占 用 共享 盘 的 一 方 不 主动 “ 解 
锁 ”, 另 一 方 就 永远 得 不 到 共享 磁盘 。 现 实 中 假如 服务 节点 突然 死机 或 崩溃 ,就 不 可 能 执 
行 解锁 命令 。 后 备 节点 也 就 接管 不 了 共享 资源 和 应 用 服务 。 于 是 有 人 在 HA 中 设计 了 
“智能 ” 锁 。 即 正在 服务 的 一 方 只 在 发 现 心跳 线 全 部 断 开 (察觉 不 到 对 端 ) 时 才 启 用 磁盘 
锁 ,平时 就 不 上 锁 了 。 

(3) 设置 仲裁 机 制 。 例 如 ,设置 参考 IP( 如 网 关 IP) ,当心 跳 线 完 全 断 开 时 ,两 个 节点 
都 各 自 ping 一 下 参考 IP ,无 法 连通 则 表明 断 点 就 出 在 自身 ,即使 启动 (或 继续 ) 应 用 服务 
也 没有 意义 , 那 就 主动 放弃 竞争 ,让 能 够 ping 通 参考 IP 的 一 端 启动 服务 。 还 可 能 因 主 服 
务 器 业务 繁忙 或 者 网 络 拥堵 无 法 通报 心跳 信息 导致 从 服务 器 的 误 判 导 致 脑 裂 现 象 ,可 采 
用 奇数 个 节点 结构 以 便 少 数 服 从 多 数 进行 仲裁 。 避 免 脑 裂 时 对 资源 的 竞争 。 可 采用 资源 
隔离 (Fencing) 屏 蔽 。 隔 离 屏 蔽 有 资源 级 别 和 节点 级 别 两 种 。 

使 用 资源 级 别 来 隔离 集群 可 以 确保 节点 无 法 访问 一 个 或 多 个 资源 。 一 个 典型 的 例子 
是 SAN, 其 中 防护 操作 会 更 改 SAN 交换 机 上 的 规则 以 拒绝 来 自 节点 的 访问 。 

节点 级 别 的 防护 确保 节点 根本 不 运行 任何 资源 。 这 通常 是 以 一 种 非常 简单 而 又 残酷 
的 方式 完成 的 : 使 用 电源 开关 简单 地 重 置 节点 。 如 Stonith(Shoot The Other Node In 
The Head) 就 是 一 种 隔离 屏蔽 , 它 提 供 了 节点 级 别 的 防护 。 

高 可 用 集群 主要 实现 了 高 可 用 性 , 即 提高 整体 系统 的 可 靠 性 。 描 述 可 靠 性 的 标 
准 一 一 X 个 9, 这 个 X 是 代表 数字 3 一 5。X 个 9 表示 系统 在 1 年 的 使 用 过 程 中 ,可 以 正常 
使 用 时 间 与 总 时 间 (1 年 ) 之 比 。 

3 个 9(99.9%): (1% 一 99.9%)* 365 x 24 一 8. 76h, 表 示 该 软件 系统 在 连续 运行 
1 年 时 间 里 可 能 的 业务 中 断 时 间 最 多 是 8. 76h。 

4 个 9(99.99%): (1% 一 99.99%) * 365 * 24 一 0. 876h 一 52. 6min, 表 示 该 软件 系统 
在 连续 运行 1 年 时 间 里 可 能 的 业务 中 断 时 间 最 多 是 52. 6min。 

5 个 9(99.999%): (1 昕 一 99.999%%) * 365* 24 x 60 二 5.26min, 表 示 该 软件 系统 在 
连续 运行 1 年 时 间 里 可 能 的 业务 中 断 时 间 最 多 是 5. 26min。 

那么 X 个 9 里 的 X 只 代表 数字 3 一 5, 为 什么 没有 1 一 2, 也 没有 大 于 6 的 呢 ? 接着 往 
下 计算 : 

1 个 9(90%): (1%~90%) * 365 一 36. 5 天 

2 个 9(99%): (1%~99%) * 365 一 3. 65 天 

6 个 9(99.9999%): (1%% 一 99.9999%)*365x* 24x60x60 一 31s 
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可 以 看 到 1 个 9 和 2 个 9 分 别 表示 一 年 时 间 内 业务 可 能 中 断 的 时 间 是 36. 5 天 和 
3. 65 天 ,这 种 级 别 的 可 靠 性 或 许 还 不 配 使 用 “可 靠 性 ”这 个 词 ;而 6 个 9 则 表示 一 年 内 业 
务 中 断 时 间 最 多 是 31s, 这 个 级 别 的 可 靠 性 并 非 实现 不 了 ,而 是 要 做 到 从 5 个 9 到 6 个 9 
的 可 靠 性 提升 ,后 者 需要 付出 比 前 者 几 倍 的 成 本 ,所 以 在 企业 里 大 家 都 只 谈 (3 一 5) 个 9。 


2. 负载 均衡 集群 


负载 均衡 集群 (Load Balancing Cluster,LBC) ,不 同 节点 之 间 相 互 独立 ,共同 承担 大 
量 客户 端的 访问 ,以 提升 系统 的 吞吐 量 。 负 载 均 衡 前 端 调度 器 负责 通过 一 定 算法 将 客户 
端的 访问 请 求 平分 到 集群 的 各 个 节点 上 ,充分 利用 每 个 节点 的 资源 。 负 载 均 衡 扩 展 了 网 
络 设备 和 服务 器 带宽 ,增加 吞吐 量 , 加 强 网 络 数据 处 理 能 力 。 

每 个 节点 的 性 能 和 配置 可 能 不 同 ,根据 算法 ,可 以 分 配 不 同 的 权重 到 不 同 节点 上 ,以 
实现 不 同 节点 的 资源 利用 。 网 络 访问 通过 负载 均衡 器 ,将 请 求 分 布 到 不 同 节点 上 ,如 
图 5-13 所 示 。 


Internet 


负载 均衡 器 


台 计 算 机 
Node01 Node02 Node03 Node04 Node N 
图 5-13 负载 均衡 模式 图 


3. 高 性 能 计算 集群 


高 性 能 计算 集群 (High Performance Computing,HPC) ,如 图 5-14 所 示 ,利用 并 行 计 
算 的 能 力 来 提高 计算 速度 ,解决 大 规模 科学 问题 的 计算 和 海量 数据 的 处 理 , 如 科学 研究 、 
气象 预报 .计算 模拟 .军事 研究 .CEFDVCAE、 生 物 制药 、 基 因 测 序 、 图 像 处理 等 。 并 行 计算 
是 相对 于 串 行 计算 来 说 的 。 并 行 计算 的 目的 是 提高 计算 速度 。 

并 行 计算 分 为 时 间 计 算 和 空间 计算 两 种 。 

(1) 时 间 计 算 既 是 流水 线 技术 .一 个 处 理 器 分 为 多 个 单元 ,每 个 单元 负责 不 同 任务 ， 
这 些 单元 可 并 行 计算 。 

(2) 空间 计算 利用 多 个 处 理 器 并 发 地 执行 计算 。 目 前 微 处 理 器 的 计算 能 力 越 来 越 
强 ,将 大 量 低廉 的 微 处 理 器 互联 起 来 ,组 成 一 个 “大 型 计算 机 ”以 解决 复杂 的 计算 任务 。 
Beowulf computers 为 最 典型 的 空间 并 行 计算 。 图 5-15 为 高 性 能 计算 中 心 系 统 网 络 连接 
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高 性 能 计算 中 心 系统 拓扑 图 
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图 5-14 高 性 能 计算 中 心 系统 拓扑 图 
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5-15 高 性 能 计算 中 心 系统 网 络 连接 示意 图 
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5.3 负载 均衡 集群 


随 着 Internet 的 发 展 ,Web 正 从 一 种 内 容 发 送 机 制 发 展 为 一 种 服务 平台 ,大 量 的 服 
务 和 应 用 (如 新 闻 服 务 ` 网 上 银行 .电子 商务 等 ) 都 是 围绕 着 Web 进行 ,这 促进 Internet 用 
户 剧烈 增长 和 Internet 流量 爆炸 式 地 增长 。 很 多 网 络 服务 因为 访问 次 数 爆炸 式 地 增长 而 
不 堪 重 负 , 不 能 及 时 处 理 用 户 的 请 求 ,导致 用 户 进行 长 时 间 的 等 待 ,大 大 降低 了 服务 质量 。 
如 何 建立 可 伸缩 的 网 络 服务 来 满足 不 断 增长 的 负载 需求 已 成 为 迫在眉睫 的 问题 。 负 载 均 
衡 技 术 是 构建 大 型 网 站 必 不 可 少 的 架构 策略 之 一 , 它 的 目的 是 把 用 户 的 请 求 分 发 到 多 台 
后 端的 设备 上 ,用 以 均衡 服务 器 的 负载 。 

我 们 可 以 把 负载 均衡 器 划分 为 两 大 类 : 硬件 负载 均衡 器 和 软件 负载 均衡 器 。 

硬件 负载 均衡 器 ,硬件 LB 比较 出 名 的 有 : 

(1) F5 公司 的 BIG-IP 系列 ; 

(2) Citrix 公司 的 NetScaler 系列 ; 

(3) A10 公司 的 AX 系列 。 

这 些 硬件 负载 均衡 器 ,价格 比较 贵 ,但 也 提供 了 高 可 用 性 和 高 稳定 性 ,同时 还 提供 专 
业 的 技术 服务 ,这 些 设备 往往 都 是 一 些 大 企业 ( 非 IT 类 ) 所 热衷 的 。 因 为 这 些 企业 不 缺 
逐 资 金 , 也 不 用 专业 的 IT 团队 来 开发 和 运 维 类 似 的 负载 均衡 套件 。 

软件 负载 均衡 器 , 较 流行 的 有 LVS,HAProxy, Nginx。 这 三 种 软件 负载 均衡 器 都 为 
开源 软件 ,任何 个 人 或 企业 都 可 以 无 偿 使 用 。 这 三 种 开源 负载 均衡 器 的 特点 如 下 。 


1. LVS 特点 


(1) 它 是 基于 4 层 的 网 络 协议 , 抗 负载 能 力 强 ,对 于 服务 器 的 硬件 要 求 除了 网 卡 外 ， 
没有 其 他 太 多 要 求 ; 

(2) 配置 性 比较 低 , 这 是 一 个 缺点 也 是 一 个 优点 ,因为 没有 太 多 可 配置 的 东西 ,大 大 
减少 了 人 为 出 错 的 概率 ; 

(3) 应 用 范围 比较 广 , 不 仅仅 对 Web 服务 做 负载 均衡 ,还 可 以 对 其 他 应 用 (MySQL) 
做 负载 均衡 ; 

(4) LVS 架构 中 存在 一 个 虚拟 IP 的 概念 ,需要 向 IDC 多 申请 一 个 PP 来 做 虚拟 IP。 


2. Nginx 负载 均衡 器 的 特点 


(1) 工作 在 网 络 的 7 层 之 上 ,可 以 针对 http 应 用 做 一 些 分 流 的 策略 ,例如 针对 域名 、 
目录 结构 ; 

(2) Nginx 安装 和 配置 比较 简单 ,测试 起 来 比较 方便 

(3) 也 可 以 承担 高 的 负载 压力 且 稳 定 ,一 般 能 支撑 超过 上 万 次 的 并 发 ; 

(4) Nginx 可 以 通过 端口 检测 到 服务 器 内 部 的 故障 ,例如 根据 服务 器 处 理 网 页 返回 
的 状态 码 .超时 等 ,并 且 会 把 返回 错误 的 请 求 重 新 提交 到 另 一 个 节点 ,不 过 缺点 就 是 不 支 
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持 URL 来 检测 ; 

(5) Nginx 对 请 求 的 异步 处 理 可 以 帮助 节点 服务 器 减轻 负载 ; 

(6) Nginx 能 支持 http 和 Email, 这 样 就 在 适用 范围 方面 小 很 多 ; 

(7) 默认 有 三 种 调度 算法 : 轮 询 、weight 以 及 ip_hash( 可 以 解决 会 话 保 持 的 问题 )， 
还 可 以 支持 第 三 方 的 fair 和 url_hash 等 调度 算法 。 


3. HAProxy 的 特点 


(1) HAProxy 是 工作 在 网 络 7 层 之 上 ; 

(2) 支持 Session 的 保持 ,Cookie 的 引导 等 ; 

(3) 支持 URL 检测 后 端的 服务 器 出 问题 的 检测 会 有 很 好 的 帮助 ; 

(4) 支持 的 负载 均衡 算法 : 动态 加 权 轮 循 CDynamic Round Robin) ,加 权 源 地 址 哈 希 
(Weighted Source Hash) ,加 权 URL 哈 硕 和 加 权 参 数 哈 希 (Weighted Parameter Hash); 

(5) 单纯 从 效率 上 来 讲 ,HAProxy 会 比 Nginx 具有 更 出 色 的 负载 均衡 速度 ; 

(6) HAProxy 可 以 对 MySQL 进行 负载 均衡 ,对 后 端的 DB 节点 进行 检测 和 负载 
均衡 。 

本 书 重点 介绍 LVS 负载 均衡 集群 。 


5.3.1 LVS 项 目 背 景 


从 网 络 技 术 的 发 展 来 看 ,网 络 带宽 的 增长 远 高 于 处 理 器 速度 和 内 存 访问 速度 的 增 
长 ,单个 服务 器 成 为 制约 服务 性 能 的 瓶颈 。 国 家 并 行 与 分 布 式 处 理 重点 实验 室 的 章 文 
党 博 士 作 为 著名 的 Linux 集群 项 目 一 一 LVS(Linux Virtual Server) 的 创始 人 和 主要 开 
发 人 员 , 在 1998 年 5 月 成 立 了 Linux Virtual Server 的 自由 软件 项 目 , 进 行 Linux 服务 
器 集群 的 开发 工作 。 同 时 ,Linux Virtual Server 项 目 是 国内 最 早出 现 的 自由 软件 项 目 
首 = 

LVS 针对 高 可 伸缩 、 高 可 用 网 络 服务 的 需求 .给 出 了 基于 IP 层 和 基于 内 容 请 求 分 发 
的 负载 平衡 调度 解决 方法 ,并 在 Linux 内 核 中 实现 了 这 些 方法 ,将 一 组 服务 器 构成 一 个 实 
现 可 伸缩 的 ,高 可 用 网 络 服务 的 虚拟 服务 器 。 基 于 LVS 的 虚拟 服务 器 的 体系 结构 如 
图 5-16 所 示 , 一 组 服务 器 通过 高 速 的 局 域 网 或 者 地 理 分 布 的 广域网 相互 连接 ,在 它们 的 
前 端 有 一 个 负载 调度 器 (Load Balancer) 。 

负载 调度 器 能 无 颖 地 将 网 络 请 求 调度 到 真实 服务 器 上 ,从 而 使 得 服务 器 集群 的 结构 
对 客户 是 透明 的 ,客户 访问 集群 系统 提供 的 网 络 服务 就 像 访 问 一 台 高 性 能 、 高 可 用 的 服务 
器 一 样 。 客 户 程序 不 受 服务 器 集群 的 影响 不 需 作 任何 修改 。 系 统 的 伸缩 性 通过 在 服务 机 
群 中 透明 地 加 入 和 删除 一 个 节点 来 达到 ,通过 检测 节点 或 服务 进程 故障 和 正确 地 重 置 系 
统 达到 高 可 用 性 。 由 于 负载 调度 技术 是 在 Linux 内 核 中 实现 的 ,我 们 称 之 为 Linux 虚拟 
服务 器 (Linux Virtual Server) 。 


5.3.2 LVS 的 类 型 
为 了 说 明 LVS 的 结构 , 先 约定 以 下 名 称 , 如 表 5-1 所 示 。 
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User 外 @ Internet 


Director Server 


Load Balancer 


LAN/WAN 


Real Server 1 


Real Server N 


Real Server 2 Real Server3 


Server Arrary 


Shared Storage | 


图 5-16 虚拟 服务 器 的 结构 


表 5-1 LVS 结构 名 称 
名 称 定义 


Client 

CIP 

Load balancer 或 Director 
VIP 

DIP 


REALSERVER 或 Real Server 


RIP 


客户 端 
客户 端 PP 地址 
负载 调度 器 


客户 端 访问 集群 的 虚拟 IP 地 址 , 即 负载 调度 器 对 外 公有 IP 地 址 


调度 器 连接 真实 服务 器 的 IP 地 址 


真实 服务 器 ,提供 服务 (HTTP、FTP 等 ) 的 服务 器 


集群 所 提供 应 用 程序 的 IP 地 址 


根据 LVS 的 实现 结构 ,LVS 负载 均衡 方式 有 NAT、DR 和 TUN 三 种 类 型 。 
1. LVS-NAT 结构 


与 防火 墙 目 标 地 址 转换 DNAT 方式 类 似 ,LVS-NAT 通过 修改 请 求 报 文 的 目标 地 址 
VIP 为 根据 调度 算法 所 挑选 出 的 某 REALSERVER 的 RIP 来 进行 转发 。 其 结构 如 
图 5-17 所 示 。 

1) LVS-NAT 工作 流程 

@ 客户 端 访问 集群 的 VIP 地址, 请求 Web 服务 (请 求 报 文 : 源 地 址 为 CIP, 目 标 地 址 
为 VIP); 

@ 调度 器 收 到 客户 端的 请 求 报 文 , 会 修改 请 求 报 文中 的 目标 地 址 (VIP) 为 某 个 RIP， 
并 且 将 请 求 根据 相应 的 调度 算法 送 往 后 端 Web 服务 器 (请 求 报 文 : 源 地 址 CIP, 目 标 地 址 
为 RIP); 
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图 5-17 LVS-NAT 结构 


@ Web 服务 器 收 到 请 求 ,检查 报 文 是 访问 自己 的 ,并 且 自 己 也 提供 Web 服务 ,就 会 
响应 这 个 请 求 报 文 给 调度 器 (响应 报 文 : 源 地 址 RIP, 目 标 地 址 CIP); 

@ 调度 器 收 到 Web 服务 器 的 响应 报 文 , 会 根据 自己 内 部 的 追踪 机 制 ,自动 修改 源 地 
址 为 VIP 响应 客户 端 请 求 (响应 报 文 : 源 地 址 VIP, 目 标 地 址 CIP) 。 

LVS-NAT 工作 流程 如 图 5-18 所 示 。 


5-18 LVS-NAT 工作 流程 


2) LVS-NAT 架构 特性 
@ REALSERVER 应 该 使 用 私有 地 址 , 即 RIP 应 该 为 私有 地 址 ,各 REALSERVER 
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的 网 关 必 须 指定 为 DIP; 

@ 请 求 报 文 和 响应 报 文 都 经 由 Director 转发 ,调度 器 作为 所 有 服务 器 节点 网 关 , 即 
作为 客户 端的 访问 人 口 ,也 是 各 节点 回应 客户 端的 访问 出 口 ; 

@ 和 DNAT 一 样 支持 端口 映射 ; 

@ REALSERVER 可 以 使 用 任意 类 型 的 OS; 

@ REALSERVER 的 RIP 必须 与 Director 的 DIP 在 同一 网 络 ,中间 不 需要 路 由 器 中 转 。 

3) NAT 模型 优 缺 点 

优点 : 节点 服务 器 使 用 私有 IP 地 址 ,与 负载 调度 器 位 于 同一 个 物理 网 络 ,Director 也 
可 以 充当 一 个 REALSERVER ,安全 性 比 DR 模式 和 TUN 模式 要 高 。 

缺点 : 调度 器 位 于 客户 端 和 集群 节点 之 间 ,并 负责 处 理 进出 的 所 有 通信 (压力 大 的 根 
本 原因 ) 。 大 规模 应 用 场景 中 ,调度 器 成 为 系统 整体 性 能 瓶颈 。 


2. LVS-DR 结构 


和 LVS-NAT 不 同 ,LVS-DR 结构 的 Diector 在 实现 转发 时 不 修改 请 求 的 IP 首部 ,而 
是 通过 直接 修改 目标 的 MAC 首部 完成 转发 ;目标 MAC 是 Director 根据 调度 方法 挑选 出 
某 REALSERVER 的 MAC 地 址 。 为 了 确保 目的 IP 为 VIP 的 数据 包 能 够 被 选中 的 
REALSERVER 接收 ,事先 要 在 所 有 的 REALSERVER 上 配置 一 个 IP 为 VIP 的 
loopbackDevice, 因 loopbackDevice 是 服务 器 本 地 使 用 的 回环 网 络 接口 ,对 外 是 不 可 见 的 
(隐藏 IP) ,不 会 与 Director 的 VIP 冲突 。 其 结构 如 图 5-19 所 示 。 
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Linux Director Real Server 2 
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© 


5- 19 LVS-DR 结构 
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1) LVS-DR 工作 流程 

| 客户 端 CIP 的 请 求 发 送 给 LVS 调度 器 的 VIP; 

@ LVS 调度 器 收 到 客户 端的 请 求 包 后 ,将 数据 包 的 MAC 地 址 改 成 LVS 调度 器 选择 的 
某 一 台 REALSERVER 的 MAC 地 址 ,并 通过 交换 机 (数据 链 路 层 ) 发 送 给 REALSERVER 
服务 器 (因为 MAC 地 址 是 REALSERVER 服务 器 ,所 以 REALSERVER 可 以 接收 到 该 数据 
报 )。 注 意 : 此 时 数据 包 的 目的 及 源 全 地 址 没有 发 生 任何 改变 。 

@ REALSERVER 的 数据 链 路 层 收 到 发 送 来 的 数据 报 文 请 求 后 ,会 从 链 路 层 往 上 传 
给 卫 层 ,此 时 IP 层 需要 验证 请 求 的 目标 IP 地 址 。 因 为 包 的 目标 了 P 与 REALSERVER 
的 隐藏 IP( 即 VIP) ,REALSERVER 正常 接收 。 

@ REALSERVER 处 理 数据 包 完 成 后 ,将 应 答 直 接 返回 给 客户 端 ( 源 卫 为 VIP, 目 
标 IP 为 CIP)。 回 复数 据 报 不 再 经 过 调度 器 。 因 此 ,如 果 对 外 提供 LVS 负载 均衡 服务 ， 
则 REALSERVER 需要 和 Diectory 一 样 连 上 外 网 才能 将 应 答 包 返回 给 客户 端 。 一 般 
REALSERVER 最 好 为 带 公 网 IP 的 服务 器 ,这 样 可 以 不 经 过 网 关 直 接 回应 客户 ,如 果 多 
个 REALSERVER 使 用 了 同一 网 关 出 口 ,网 关 会 成 为 LVS 架构 的 瓶颈 ,导致 LVS 的 性 
能 降低 。 

LVS-DR 工作 流程 如 图 5-20 所 示 。 


调度 器 
5-20 LVS-DR 工作 流程 


2) LVS-DR 架构 特性 

QO@ 保证 前 端 路 由 器 将 目标 地 址 为 VIP 的 请 求 报 文 通过 ARP 地 址 解析 后 送 往 
Director, 具 体 实现 方法 如 下 。 

a. 苦 态 绑 定 : 在 前 端 路 由 器 直接 将 VIP 对 应 的 目标 MAC 静态 配置 为 Director 的 
MAC 地 址 。 

缺点 : 如 果 路 由 是 运营 商 提供 则 没有 路 由 器 管理 权限 ,就 无 法 配置 ;如 果 调 度 器 做 了 
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高 可 用 ,当主 备 切换 的 时 候 , MAC 地 址 会 发 生 改变 。 

b. Arptables: 在 各 REALSERVER 上 通过 Arptables 规则 拒绝 其 响应 对 应 的 ARP 
广播 请 求 。 

c. 内 核 参 数 : 在 REALSERVER 上 修改 内 核 参数 ,并 结合 地 址 的 配置 方式 实现 拒绝 
响应 对 VIP 的 ARP 广播 请 求 。 

@@ REALSERVER 的 RIP 可 以 使 用 私有 地 址 ,但 也 可 以 使 用 公 网 地 址 ,此 时 可 通过 
互联 网 上 的 主机 直接 对 此 REALSERVER 远程 管理 操作 。 

@ 请 求 报 文 必 须 经 由 Director 调度 ,但 响应 报 文 必须 不 能 经 由 Director。 

@ 各 RIP 必须 与 DIP 在 同一 物理 网 络 中 。 

加 不 支持 端口 映射 。 

@ REALSERVER 可 以 使 用 大 多 数 的 OS。 

@ REALSERVER 的 网 关 一 定 不 能 指向 Director。 

3) LVS-DR 模型 优 缺点 

优点 : 负载 均衡 器 也 只 是 分 发 请 求 ,应 答 包 通过 单独 的 路 由 方法 返回 给 客户 端 ,大 大 
提高 了 服务 器 并 发 能 力 (响应 报 文 一 般 比 请 求 报 文 长 ) 。 

缺点 : DDirector 和 REALSERVER 必须 在 同一 个 VLAN; 

加 各 REALSERVER 上 绑 定 VIP, 风 险 大 。 


3. LVS-TUN 结构 


为 了 实现 分 布 于 不 同 地 区 REALSERVER 间 负 载 均 衡 ,利用 IP 隧道 技术 (IP tunneling) 
在 不 修改 请 求 报 文 IP 首 部 情况 下 ,在 原 有 的 全 报 文 基础 上 再 封装 1 个 人 Pp 首部 ,经 由 互联 网 
把 请 求 报 文 交 给 选 定 的 REALSERVER。 和 DR 结构 类 似 ,所 有 REALSERVER 必须 配置 隐 
藏 VIP,LVS-TUN 结构 主要 用 于 实现 异地 容 灾 。 其 结构 如 图 5-21 所 示 。 

1) LVS-TUN 工作 流程 

Q@ 用 户 发 送 请 求 到 Director 的 VIP 请 求 服务 。 注 意 : 此 VIP 地 址 在 互联 网 上 是 唯 
一 可 达 地 址 。 

@ 当 用 户 请 求 到 达 Director 的 时 候 , 根 据 调度 算法 选择 一 台 REALSERVER 进行 转 
发 ,但 是 这 个 时 候 发 送 的 报 文 就 需要 使 用 隧道 (TUN) 技 术 在 原 有 数据 包 基 础 上 再 封装 1 个 
IP 首部 。 原 有 报 文 首部 源 CIP 目标 VIP, 新 封装 的 全 首部 , 源 DIP 目标 RIP, 构 成 了 IPIP 报 文 。 

@ 当 REALSERVER 接收 到 IPIP 报 文 后 ,看 到 外 层 的 IP 首部 ,目标 地 址 是 自己 的 
RIP 就 会 接收 拆 开封 装 , 这 个 时 候 就 会 发 现 还 有 一 个 IP 首部 ,首部 内 容 为 CIP 请 求 自己 
的 VIP( 隐 藏 IP) ,这 个 时 候 由 于 自己 有 VIP 地 址 响应 这 个 请 求 给 CIP( 响 应 报 文 : 源 地 址 
VIP, 目 标 地 址 CIP) 。 

LVS-TUN 工作 流程 如 图 5-22 所 示 。 

2) LVS-TUN 架构 特性 

RIP、DIP、VIP 都 是 公 网 地 址 ; 

加 REALSERVER 的 网 关 不 能 也 不 可 能 指向 DIP; 

@ 请 求 报 文 由 Director 分 发 ,但 响应 报 文 直接 由 REALSERVER 响应 给 Client; 
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图 5-21 LVS-TUN 结构 


图 5-22 LVS-TUN 工作 流程 


@ 不 支持 端口 映射 ; 

回 REALSERVER 的 OS 必须 得 支持 IP 隧道 。 

3) LVS-TUN 结构 优 缺 点 

优点 : 实现 了 异地 容 灾 ,避免 了 一 个 机 房 故障 导致 网 站 无 法 访问 。 
缺点 : REALSERVER 配置 复杂 (IPIP 模块 等 ) 。 


4. LVS-FULLNAT 


LVS-NAT 在 多 路 由 网 络 调度 中 存在 的 问题 ,其 结构 如 图 5-23 所 示 。 
Q@ 客户 端 将 请 求 发 送 给 Director 请 求 服务 ; 
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图 5-23 LVS-NAT 在 多 路 由 网 络 调度 中 存在 的 问题 


@ Director 将 请 求 报 文 转发 给 REALSERVER , 源 地 址 是 CIP, 目 标 地 址 是 RIP。 

注意 : 响应 报 文 不 经 由 Director, REALSERVER 收 到 数据 报 查看 目标 地 址 是 自己 
的 就 会 响应 请 求 ,但 是 源 地 址 为 CIP, 这 个 时 候 由 于 和 Director 中 间 使 用 了 路 由 器 连接 ， 
所 以 网 关 不 是 指向 Director, 如 果 响应 报 文 不 经 过 Director, 那 么 响应 客户 端 请 求 的 就 是 
REALSERVER 的 RIP, 而 不 是 VIP。 

@ 客户 端 收 到 响应 报 文 ,看 到 是 RIP 响应 的 ,但 是 自己 没有 请 求 过 RIP, 所 以 会 直接 
丢弃 数据 报 。 

1) LVS-FULLNAT 结构 

通过 请 求 报 文 的 源 地 址 为 DIP, 目 标 为 RIP 来 实现 转发 ;对 于 响应 报 文 而 言 , 修 改 源 
地 址 为 VIP, 目 标 地 址 为 CIP 来 实现 转发 ,其 结构 如 图 5-24 所 示 。 


图 5-24 LVS-FULLNAT 结构 


2) LVS-FULLNAT 工作 流程 
O@ 客户 端 将 请 求 发 送 给 Director 的 VIP 请 求 服务 ; 
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@ Director 通过 调度 算法 ,将 请 求 发 送 给 后 端的 REALSERVER, 这 个 时 候 源 地 址 
改 为 DIP, 目 标 地 址 改 为 了 RIP; 

@ REALSERVER 接收 到 请 求 后 ,由 于 源 地 址 是 DIP, 则 一 定 会 对 DIP 进行 回应 ; 

@ Director 收 到 REALSERVER 的 响应 后 ,会 修改 数据 报 的 源 地 址 为 VIP, 目 标 地 
址 为 CIP 进行 响应 。 

说 明 : 此 调度 方式 还 没有 正式 被 Linux 官方 录入 系统 标准 库 , 所 以 如 果 想 使 用 此 模 
式 , 需 要 去 LVS 官网 下 载 源码 ,并 且 需 要 重新 编译 系统 内 核 才 可 使 用 。 

3) LVS-FULLNAT 架构 特性 

Q@ RIP、DIP 可 以 使 用 私有 地 址 ; 

@ RIP 和 DIP 可 以 不 在 同一 个 网 络 中 , 且 RIP 的 网 关 未 必需 要 指向 DIP; 

@ 支持 端口 映射 ; 

@ REALSERVER 的 OS 可 以 使 用 任意 类 型 ; 

@) 请 求 报 文 经 由 Director, 响 应 报 文 也 经 由 Director。 


5.3.3 LVS 调度 算法 


LVS 以 模块 形式 集成 在 系统 内 核 中 ,通过 编译 内 核 时 的 配置 文件 查看 当前 系统 支持 
的 调度 方法 : 


#grep -i 'IP VS SCHEDULER' -有 12 /boot/config- 2.6.32- 504.e16.x86 64 
[root@localhost~ ]# grep -i 'IP VS SCHEDULER' -有 12 /boot/config- 2.6.32- 504.e16.x86 64 
#IP VSscheduler 

CONFIG IP VS RR=m 

CONFIG IP VS WRR=m 

CONFIG IP VS LC=m 

CONFIG IP VS WIC=m 

CONFIG IP VS LBLC=m 

CONFIG IP VS LBLCR=m 

CONFIG IP VS DH=m 

CONFIG IP VS_SH=m 

CONFIG IP VS_SED=m 

CONFIG IP VS NO=m 


1. LVS 的 调度 算法 分 类 


LVS 的 调度 方法 分 为 两 种 ,一 种 是 静态 方法 , 另 一 种 是 动态 方法 。 

静态 方法 : 仅 根据 算法 本 身 实 现 调度 ;实现 起 点 公平 ,不 管 服务 器 当前 处 理 多 少 请 
求 ,也 不 考虑 不 同 服务 器 人 处理 能 力 差别 .平均 分 配 的 任务 数量 一 致 。 以 上 列 出 的 10 种 算 
法 中 包括 RR、WRR、SH、DH 4 种 静态 算法 。 

动态 方法 : 根据 算法 及 后 端 REALSERVER 当前 的 负载 状况 实现 调度 ;不 只 看 任务 
数量 多 少 , 确 保 分 配 的 结果 更 公平 。 以 上 列 出 的 10 种 算法 中 包括 LC、WLC.、SED、NQ、 
LBIC、LBICR 6 种 动态 算法 。 
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2. 静态 调度 算法 (static Schedu) 


(1) RR(Round Robin, 轮 叫 , 轮 询 ) 。 

说 明 : 轮 询 调度 算法 的 原理 是 每 一 次 把 来 自用 户 的 请 求 轮流 分 配给 内 部 中 的 服务 
器 ,从 1 开始 ,直到 N( 内 部 服务 器 个 数 ) ,然后 重新 开始 循环 。 算 法 的 优点 是 简洁 , 它 无 须 
记录 当前 所 有 连接 的 状态 ,所 以 它 是 一 种 无 状态 调度 。 缺 点 是 没 考虑 每 台 服 务 器 的 处 理 
能 力 。 

(2) WRRCWeight Round Robin, 加 权 轮 询 ), 以 权重 之 间 的 比例 实现 在 各 主机 之 间 
进行 调度 。 

说 明 : 由 于 每 台 服务 器 的 配置 .安装 的 业务 应 用 等 不 同 , 其 处 理 能 力也 会 不 一 样 。 所 
以 ,根据 服务 器 的 不 同 处 理 能 力 , 给 每 个 服务 器 分 配 不 同 的 权 值 , 使 其 能 够 接受 相应 权 值 
数 的 服务 请 求 。 

(3) SH(Source Hashing, 源 地 址 hash) ,实现 会 话 绑 定 sessionaffinity 。 

说 明 : 简单 地 说 ,就 是 有 将 同一 客户 端的 请 求 发 给 同一 个 REALSERVER , 源 地址 散 
列 调度 算法 正好 与 目标 地 址 散 列 调度 算法 相反 , 它 根据 请 求 的 源 IP 地 址 ,作为 散 列 键 
(Hash Key) 从 静态 分 配 的 散 列 表 找 出 对 应 的 服务 器 , 若 该 服务 器 是 可 用 的 并 且 没 有 超 负 
荷 ,将 请 求 发 送 到 该 服务 器 ,否则 返回 空 。 它 采用 的 散 列 函数 与 目标 地 址 散 列 调度 算法 相 
同 。 它 的 算法 流程 与 目标 地 址 散 列 调度 算法 基本 相似 ,除了 将 请 求 的 目标 IP 地 址 换 成 请 
求 的 源 IP 地 址 。 

(4) DH(Destination Hashing, 目 标 地 址 hash) 。 

说 明 : 将 同样 的 请 求 发 送 给 同一 个 server, 一 般 用 于 调度 器 后 面 带 有 缓存 服务 器 情 
景 ,保证 不 同 客户 端 访问 同样 的 资源 从 同一 个 缓存 服务 器 中 得 到 。 简 单 地 说 ,LB 集群 后 
面 又 加 了 一 层 , 在 LB 与 REALSERVER 之 间 加 了 一 层 缓存 服务 器 , 当 一 个 客户 端 请 求 一 
个 页 面 时 ,LB 发 给 Cachel , 当 第 二 个 客户 端 请 求 同 样 的 页 面 时 ,LB 还 是 发 给 Cachel ,这 
就 是 说 将 同样 的 请 求 发 给 同一 个 server, 来 提高 缓存 的 命中 率 。 目 标 地 址 散 列 调 度 算法 
也 是 针对 目标 IP 地 址 的 负载 均衡 , 它 是 一 种 静态 映射 算法 ,通过 一 个 散 列 (Hash) 函 数 将 
一 个 目标 IP 地 址 映射 到 一 台 服 务 器 。 目 标 地 址 散 列 调度 算法 先 根据 请 求 的 目标 IP 地 
址 ,作为 散 列 键 (Hash Key) 从 静态 分 配 的 散 列表 找 出 对 应 的 服务 器 ,车 该 服务 器 是 可 用 
的 且 未 超载 ,将 请 求 发 送 到 该 服务 器 ,否则 返回 空 。 


3. 动态 调度 算法 (dynamic Schedu) 


(1) LC(Least-Connection Scheduling, 最 少 连 接 调度 算法 )。 

说 明 : 最 少 连 接 调 度 算法 是 把 新 的 连接 请 求 分 配 到 当前 连接 数 最 小 的 服务 器 ,最 小 
载 均衡 ,调度 器 需要 记录 各 个 服务 器 已 建立 连接 的 数目 , 当 一 个 请 求 被 调度 到 某 台 服务 
器 ,其 连接 数 加 1, 当 连接 中 止 或 超时 ,其 连接 数 减 1 ,在 系统 实现 时 ,也 引入 当 服务 器 的 权 
值 为 0 时 ,表示 该 服务 器 不 可 用 而 不 被 调度 。 

简单 算法 : active * 256 十 inactive 
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此 算法 忽略 了 服务 器 的 性 能 问题 ,有 的 服务 器 性 能 好 ,有 的 服务 器 性 能 差 , 通 过 加 权 
重 来 区 分 性 能 ,所 以 有 了 下 面 算法 WLC。 

(2) WLC(Weighted Least-Connection Scheduling, 加 权 最 少 连 接 调度 算法 )。 

加 权 最 小 连接 调度 算法 是 最 小 连接 调度 的 超 集 , 各 个 服务 器 用 相应 的 权 值 表示 其 处 
理性 能 。 服 务 器 的 默认 权 值 为 1, 系 统管 理 员 可 以 动态 地 设置 服务 器 的 权限 ,加 权 最 小 连 
接 调 度 在 调度 新 连接 时 尽 可 能 使 服务 器 的 已 建立 连接 数 和 其 权 值 成 比例 。 由 于 服务 器 的 
性 能 不 同 ,给 性 能 相对 好 的 服务 器 加 大 权重 , 即 会 接收 到 更 多 的 请 求 。 

简单 算法 : (active * 256 十 inactive)/weight 

当 刚 开始 接受 请 求 时 初始 活动 连接 为 0, 无 论 REALSERVER 的 权重 如 何不 同 , 计 算 
结果 都 为 0, 所 以 Director 自动 顺序 选择 第 1 个 服务 器 响应 请 求 ,而 不 是 选择 性 能 强 的 服 
务 器 响应 。 

(3) SED(Shortest Expected Delay Scheduling, 最 少 期 望 延 迟 调度 算法 ) 。 

在 WLC 的 基础 上 ,不 考虑 非 活动 连接 ,选择 权重 大 的 服务 器 来 接收 请 求 , 其 算法 
和 如下。 

基于 WLC 算法 基础 上 忽略 不 活跃 连接 后 SED 算法 : (active 十 1) * 256/weight 

但 SED 会 出 现 问题 ,就 是 权重 比较 大 的 服务 器 会 很 忙 , 但 权重 相对 较 小 的 服务 器 很 
闲 , 甚 至 会 接收 不 到 请 求 , 所 以 便 有 了 下 面 的 算法 NQ。 如 ABC3 个 服务 器 权 值 分 别 为 
1:4:6 时 ,5 个 活跃 连接 分 配 为 CBCBC, 权 值 小 的 A 服务 器 很 难得 到 任务 。 

(4) NQCNever Queue Scheduling, 永 不 排队 调度 算法 )。 

说 明 : 由 于 某 台 服务 器 的 权重 较 小 ,比较 空闲 ,甚至 接收 不 到 请 求 ,而 权重 大 的 服务 

会 很 忙 ,所 以 NQ 算法 是 SED 的 改进 ,就 是 说 不 管 权 重 多 大 都 会 被 分 配 到 请 求 。 简 单 
来 说 ,无 须 队 列 , 如 果 有 台 REALSERVER 的 连接 数 为 0 就 直接 分 配 过 去 ,不 需要 再 进行 
SED 运算 。 第 一 轮 先 自 上 而 下 分 配 ,第 二 轮 开始 计算 最 少 连接 。 

(5) LBLC(Locality-Based Least Connections Scheduling, 基 于 局 部 性 的 最 少 连 接 调 
度 算法 ) ,这 是 动态 的 DH 算法 。 

说 明 : 根据 负载 状态 实现 正 向 代理 。LBLC 算法 是 针对 请 求 报 文 的 目标 IP 地 址 的 
负载 均衡 调度 ,目前 主要 用 于 Cache 集群 系统 ,因为 在 Cache 集群 中 客户 请 求 报 文 的 目标 
IP 地 址 是 变化 的 。LBLC 调度 算法 先 根 据 请 求 的 目标 IP 地 址 找 出 该 目标 IP 地 址 最 近 使 
用 的 服务 器 , 若 该 服务 器 是 可 用 的 且 没 有 超载 ,将 请 求 发 送 到 该 服务 器 ; 若 服务 器 不 存 
在 ,或 服务 器 超载 或 有 服务 器 处 于 其 一 半 的 工作 负载 , 则 用 “最 少 链接 ”的 原则 选 出 一 个 可 
用 的 服务 器 ,将 请 求 发 送 到 该 服务 器 。 

这 种 算法 本 质 就 是 LC 算法 或 理解 为 WLC 算法 。 但 是 该 算法 的 特性 是 ,注意 实现 目 
标 是 要 和 静态 调度 算法 中 的 DH 算法 一 样 ,用 于 将 同一 类 请 求 转发 到 一 个 固定 节点 ,因此 
常用 于 缓存 服务 器 的 场景 。 但 是 DH 算法 因为 是 静态 调度 算法 ,不 会 考虑 后 端 (缓存 ) 服 
务 器 的 当前 连接 数 ,但 LBLC 就 是 在 DH 算法 的 基础 上 考虑 后 端 服 务 器 当前 的 连接 数 。 
如 果 ( 缓 存 ) 服 务 器 使 用 了 集群 (如 Memcached 的 主 主 复制 ) ,因为 所 有 节点 的 缓存 数据 都 
相同 ,因此 要 使 用 负载 均衡 算法 来 实现 请 求 按照 当前 服务 器 的 负载 进行 转发 。 而 如 果 后 
端的 每 个 缓存 服务 器 的 内 容 不 同 ,使 用 LBLC 就 会 破坏 命中 率 并 且 导 致 多 个 缓存 节点 组 
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存 了 相同 的 数据 ,因此 为 了 提高 缓存 命中 率 以 及 防止 多 个 节点 缓存 相同 的 数据 ,一 般 就 不 
采用 LBLC 而 直接 采用 DH。 

所 以 ,要 提高 负载 均衡 效果 就 要 破坏 缓存 命中 率 以 及 多 个 缓存 节点 会 缓存 相同 数据 ; 
要 提高 缓存 命中 率 已 经 防止 多 个 节点 缓存 相同 的 数据 ,就 会 降低 负载 均衡 效果 。 所 以 这 
需要 找到 一 个 平衡 点 ,根据 实际 需要 来 决定 。 

(6) LBLCR(Locality-Based Least Connections with Replication Scheduling, 基 于 局 
部 性 的 带 复 制 功能 的 最 少 连 接 调 度 算法 )。 

LBLCR 算法 也 是 针对 目标 IP 地 址 的 负载 均衡 ,目前 主要 用 于 Cache 集群 系统 。 它 
与 LBLC 算法 的 不 同 之 处 是 它 要 维护 从 一 个 目标 IP 地 址 到 一 组 服务 器 的 映射 ,而 LBLC 
算法 维护 从 一 个 目标 IP 地 址 到 一 台 服务 器 的 映射 。 

LBLCR 调度 算法 将 “热门 ”站 点 映射 到 一 组 Cache 服务 器 (服务 器 集合 ), 当 该 * 热 
门 ” 站 点 的 请 求 负载 增加 时 ,会 增加 集合 里 的 Cache 服务 器 来 处 理 不 断 增长 的 负载 ; 当 
该 “热门 ?站 点 的 请 求 负载 降低 时 ,会 减少 集合 里 的 Cache 服务 器 数目 。 这 样 ,该 “热门 ” 
站 点 的 映像 不 太 可 能 出 现在 所 有 的 Cache 服务 器 上 ,从 而 提高 Cache 集群 系统 的 使 用 
总 率 ; 

LBLCR 算法 可 以 理解 为 后 端 多 个 缓存 服务 器 ,通过 内 容 交 换 协 议 实 现 缓存 共享 。 
因此 无 论 请 求 哪个 缓存 节点 ,如果 该 节点 没有 数据 , 它 不 会 直接 到 Web 服务 器 上 查询 ， 
而 是 试图 到 另 一 个 缓存 节点 中 查询 ,如 果 有 则 拿 过 来 并 放 入 当前 的 缓存 服务 器 ,这 样 
就 实现 一 定 程度 的 缓存 复制 功能 ,可 以 提高 缓存 命中 率 。 这 里 的 缓存 共享 并 不 是 完全 
的 Replication ,而 是 仅仅 当 请 求 的 节点 没有 需要 的 数据 时 去 其 他 缓存 节点 查询 所 请 求 
的 缓存 数据 。 但 是 这 种 机 制 因为 要 到 其 他 缓存 节点 查询 ,所 以 性 能 会 比 直接 使 用 DH 
差 一 些 。 

注 : LVS 默认 调度 算法 是 WLC, 当 大 量 连接 产生 时 , 非 活动 连接 数 不 能 忽略 。 


5.3.4 NAT 结构 负载 均衡 
1. LVS 软件 安装 


基于 Linux 的 LVS 软件 系统 架构 与 防火 墙 软件 系统 结构 类 似 , 包 括 内 核 模块 IP_VS 
和 命令 行 工具 IPVSADM。 现 在 LVS 已 经 是 Linux 标准 内 核 的 一 部 分 ,在 Linux2. 4 内 
核 以 前 ,使 用 LVS 时 必须 要 重新 编译 内 核 以 支持 LVS 功能 模块 ,但 是 从 Linux2. 4 内 核 
以 后 ,已 经 完全 内 置 了 LVS 的 各 个 功能 模块 ,无 须 给 内 核 打 任何 补丁 ,可 以 直接 使 用 
LVS 提供 的 各 种 功能 。 

当 客 户 端 访问 服务 时 会 访问 VIP 十 端口 ,所 以 客户 端的 请 求 报 文 会 发 往 调度 器 ,请 求 
报 文 会 先 经 过 PREROUTING 链 , 然 后 进行 路 由 判断 。 由 于 此 刻 报 文 的 目标 了 P 为 VIP， 
而 VIP 对 于 调度 器 来 说 就 是 本 身 的 卫 , 所 以 报 文 会 经 过 INPUT 链 。 此 刻 如 果 IP_VS 发 
现 报 文 访问 的 VIP 十 端口 与 定义 的 LVS 集群 规则 相符 ,IP_VS 则 会 根据 定义 好 的 规则 与 
算法 ,将 报 文 直接 发 往 POSTROUTING 链 , 然 后 报 文 则 会 发 出 ,最 后 到 达 后 端的 
REALSERVER 中 。 
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5. 3. 3 节 介 绍 了 内 核 集 成 IP_VS 模块 对 应 的 调度 算法 。 同 理 可 查看 其 支持 的 协议 等 
相关 信息 : 


#grep -i 'IP VS" /boot/config- 2.6.32- 504.e16.x86 64 


如 果 命 令 行 工 具 IPVSADM 没有 安装 ,可 以 使 用 软件 仓库 方式 进行 安装 , 它 位 于 软 
件 仓库 Cluster 类 中 


# Yum install ipsadm 
安装 完成 可 运行 ipvsadm 命令 验证 安装 结果 ,内 核 模块 会 随 着 ipvsadm 启动 。 


#1smod | grep IP VS 


2. LVS-NAT 系统 结构 


基于 NAT 模型 的 LVS 结构 如 图 5-25 所 示 , 由 三 台 Linux 虚拟 机 构成 ,Director 有 
两 块 网 卡 ,一 块 网 卡 以 桥接 模式 与 客户 机 (宿主 机 ?连接 , 另 一 块 网 卡 以 HOSTONLY 模 
式 与 两 台 REALSERVER 连接 。 


DIP: 10.0.0.227 
CIP: 192.168.1.109 RIP1: 10.0.0.229 
VIP: 192.168.1.227 


RIP2: 10.0.0.231 
5-25 LVS-NAT 结构 


其 中 ,CIP:192. 168. 1. 109 

VIP:192. 168. 1. 227 

DIP:10. 0. 0. 227 

RIP1:10. 0. 0. 229 

RIP2:10. 0. 0. 231 

Director 打开 路 由 转发 功能 ,两 台 REALSERVER 的 网 关 指 向 Director 的 DIP， 
REALSERVER 同时 进行 HTTP 服务 ,为 了 验证 负载 均衡 效果 ,两 台 REALSERVER 配 
置 不 同 的 页 面 。 


3. LVS-NAT 配置 


准备 工作 : 在 Director 上 ,配置 好 两 块 网 卡 的 连接 模式 及 对 应 的 卫 , 并 打开 内 核 转发 
功能 ,如 图 5-26 所 示 。 
(1) 添加 新 的 集群 。 
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图 5-26 ”Director 网 络 配置 


#ipvsadm -A -七 192.168.1.227:80 -srr 

上 述 命令 添加 1 个 VIP 为 192. 168. 1. 227 端口 为 80 的 支持 TCP 协议 的 集群 ,其 调 
度 算 法 为 RR。 

具体 集群 服务 管理 类 命令 如 下 

QO@ -A 添加 集群 ,其 基本 格式 为 

#ipvs -A -tlulf service-address [-s scheduler] 

t: TCP 协议 的 集群 

u: UDP 协议 的 集群 

service- address: IP:PORT 

f: FWM: 防火 墙 标 记 

Service- address: Mark Number 


s: 调度 算法 
@ -下 修改 集群 ,其 基本 格式 与 -A 类 似 


# ipvs -E -tlulf service-address [-s scheduler] 
@ -D 删除 集群 
#ipvsadm -D -tlulf service- address 


(2) 向 集群 添加 REALSERVER 。 


# ipvsadm -a -t 192.168.1.227:80 - 10.0.0.229 —m 


#ipvsadm -a —t 192.168.1 :80 —r 10.0.0.231 ~-m 


上 述 命令 向 192. 168. 1. 227: 80 集群 添加 NAT 工作 方式 的 两 台 REALSERVER。 
具体 的 REALSERVER 管理 命令 包括 : 
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O@ -a 添加 REALSERVER ,其 基本 命令 格式 为 
#ipvsadm -a -tlulf service- address —r server-address [-glilm] [-w weight] 


-tlulf service-address: 事先 定义 好 的 集群 服务 

-r server-address: REALSERVER 的 地 址 ,在 NAT 模型 中 ,可 使 用 IP: PORT 实现 
端口 映射 ; 

[-glilm]: LVS 类 型 

-g: DR 

-i: TUN 

-m: NAT 

[-w weight]: 定义 服务 器 权 

@ -e 修改 REALSERVER 


#ipvsadm -e -tlulf service- address -r server- address [-glilm] [-w weight] 
@ -d 删除 REALSERVER 
# ipvsadm -d -tlulf service- address -r server- address 


(3) 查看 集群 配置 。 
查看 配置 的 结果 如 图 5-27 所 示 , RR 算法 中 所 有 REALSERVER 的 权 值 均 为 1。 


#ipvsadm - Ln 


图 5-27 RR 算法 集群 配置 结果 


具体 查看 集群 配置 的 命令 包括 : 
* 工 |1 都 用 来 查看 集群 配置 ,作用 相同 ,其 格式 如 下 : 


# ipvsadm - 工 |1 [options] 


[options] 选 项 如 下 。 

-n: 数字 格式 显示 主机 地 址 和 端口 

一 stats: 统计 数据 

一 rate: 速率 

一 timeout: 显示 tcp \tcpfin 和 udp 的 会 话 超时 时 长 

-c: 显示 当前 的 ipvs 连接 状况 

(4) 启动 ipvsadm 服务 并 测试 集群 效果 。 

井 service ipvsadm start 命令 自动 保存 LVS 的 规则 并 应 用 规则 ,如 图 5-28 所 示 。 
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图 5-28 启动 集群 服务 并 应 用 规则 


客户 端 访 问 VIP ,测试 LVS-NAT 效果 ,访问 时 F5 刷新 页 面 ,检测 RR 算法 ,可 以 发 
现 页 面 轮流 显示 两 个 REALSERVER 的 不 同 页 面 ,如 图 5-29 所 示 。 
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REALSERVER 2 
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图 5-29 客户 端 访问 结果 


在 Director 上 查看 集群 连接 分 配 的 效果 如 图 5-30 所 示 。 


图 5-30 ”RR 算法 集群 连接 分 配 


重新 修改 集群 的 调度 算法 为 WRR 并 分 配 REALSERVER 的 权 值 为 2 : 1 ,测试 结果 
如 图 5-31 所 示 。 

# ipvsadm -C ”-C 命 令 删 除 所 有 集群 服务 

#ipvsadm -A -七 192.168.1.227:80 —s wrr 

#ipvsadm ~-a -七 192.168.1.227:80 -LI 10.0.0.229 -mm 一 WwW2 

#ipvsadm -a —-t 192.168.1.227:80 -LI 10.0.0.231 -m -wl1 


# ipvsadm -In 


图 5-31 WRR 算法 集群 连接 分 配 


(5) 保存 集群 配置 。 
@ 保存 规则 至 默认 配置 文件 /etc/sysconfig/ipvsadm: 
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#service ipvsadm save 

@ 保存 规则 至 指定 文件 : 
#ipvsadm - S > /path/to/somefile 
(6) 恢复 集群 配置 。 


#ipvsadm -R < /path/form/somefile 


5.3.5 DR 结构 负载 均衡 


在 DR 模型 中 ,被 轮 询 到 的 REALSERVER 直接 响应 用 户 的 请 求 ,Director 不 修改 也 
不 封装 IP 报 文 ,而 是 将 数据 帧 的 MAC 地 址 改 为 选 出 的 REALSERVER 的 MAC 地 址 ， 
再 将 修改 后 的 数据 帧 在 与 服务 器 组 的 局 域 网 上 发 送 。 因 为 数据 帧 的 MAC 地 址 是 选 出 的 
REALSERVER ,所 以 被 选 出 来 的 REALSERVER 可 以 收 到 这 个 数据 帧 ,从 中 可 以 获得 
该 IP 报 文 。 每 个 REALSERVER 均 要 配置 VIP, 当 REALSERVER 发 现 报 文 的 目标 地 
址 VIP 是 在 本 地 的 网 络 设 备 上 ,服务 器 处 理 这 个 报 文 , 然 后 根据 路 由 表 将 响应 报 文 直 接 
返回 给 客户 ,客户 认为 得 到 正常 的 服务 ,而 不 会 知道 是 哪 一 台 REALSERVER 处 理 的 。 
因此 DR 模型 需要 通过 IP 隐藏 和 ARP 抑制 解决 卫 冲突 和 VIP 的 MAC 广播 问题 。 


1. ARP 抑制 解决 VIP 的 MAC 广播 问题 


DR 工作 原理 可 以 看 到 一 个 客户 端 计算 机 发 送 一 个 ARP 广播 到 DR 集群 ,因为 
Director 和 集群 REALSERVER 节点 都 连接 到 同一 交换 网 络 , 它 们 都 会 接收 到 ARP 广 
播 “ 哪 个 MAC 地 址 对 应 的 VIP?”, 这 时 只 能 由 前 端的 Director 来 对 用 户 进行 响应 ,其 他 
REALSERVER 不 应 该 响应 客户 端的 ARP 请 求 包 。 为 此 在 REALSERVER 进行 一 定 的 
处 理 , 使 其 不 响应 VIP 接口 上 的 ARP 请 求 。 在 现在 的 Linux 中 ,都 提供 了 相应 内 核 参数 
对 MAC 广播 进行 管理 实现 ARP 抑制 ,具体 内 容 如 下 。 

(1) arp_ignore 定义 接收 到 ARP 请 求 时 的 响应 级 别 ( 是 否 要 返回 ARP 响应 ) 。 

0 一 一 只 要 本 地 配置 有 相应 ARP 请 求 的 目标 IP 地 址 ,包括 环 回 网 卡 上 的 地 址 ,而 不 
管 该 目标 IP 是 否 在 接收 网 卡 上 ,都 给 予 响 应 (默认 ); 其 示例 如 图 5-32 所 示 ,ethl 网 卡 上 
收 到 目的 IP 为 环 回 网 卡 IP 的 ARP 请 求 ,但 是 ethl 也 会 返回 ARP 响应 ,把 自己 的 MAC 
地 址 告诉 请 求 端 。 

1 一 一 仅 响 应 目标 IP 地 址 是 配置 在 到 达 的 接口 上 本 地 地 址 的 ARP 请 求 ,对 广播 的 
ARP 请 求 不 予 响应 (DR 模型 使 用 ) ,如 图 5-33 所 示 ,ethl 网 卡 上 收 到 目的 IP 为 环 回 网 卡 
lo:IP 的 ARP 请 求 ,发现 请 求 的 IP 不 是 自己 网 卡 上 的 IP, 不 予 ARP 响应 ; 

2 一 一 只 响应 目标 IP 地 址 为 接收 网 卡 上 的 本 地 地 址 的 ARP 请 求 ,并 且 ARP 请 求 的 
源 IP 必须 和 接收 网 卡 同 网 段 ; 

3 一 一 如 果 ARP 请 求 数据 包 所 请 求 的 IP 地 址 对 应 的 本 地 地 址 其 作用 域 (scope) 为 主 
机 (host) , 则 不 回应 ARP 响应 数据 包 , 如果 作用 域 为 全 局 (global) 或 链 路 (link), 则 回应 
ARP 请 求 ; 
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RE 
arp_ignore=0 
ARP Request: ARP Reply: 
Who has 192.168.1.226 ethl: 192.168.1.226s Mac is lo's mac 
192.168.1.229 二 


lo: 
192.168.1.226 


sy 
图 5-32 arp_ignore 二 0 示意 


(伟大 = Se 
arp_ignore=] | 


ARP Request: 因为 ARP 请 求 中 的 目的 地 址 不 在 
Who has 192.168.1.226 ethl: eth1 上 ， 所 以 不 会 回 ARP 响 应 
二 192.168.1.229 Q 
lo: 
192.168.1.226 


图 5-33 arp_ignore 一 1 示意 


4 一 7 一 一 保留 未 使 用 ， 

8 一 一 不 回应 所 有 的 ARP 请 求 。 

DR 模型 下 ,每 个 REALSERVER 节点 都 要 在 环 回 网 卡 上 绑 定 虚拟 VIP。 这 时 , 当 客 
户 端 对 于 虚拟 VIP 的 ARP 请 求 广 播 到 了 各 个 真实 服务 器 节点 ,如 果 arp_ignore 参数 配 
置 为 0, 则 各 个 REALSERVER 节点 都 会 响应 该 ARP 请 求 , 此 时 客户 端 就 无 法 正确 获取 
LVS 节点 上 正确 的 虚拟 VIP 所 在 网 卡 的 MAC 地 址 ,访问 请 求 不 能 到 达 Director。DR 
模型 下 要 求 arp_ignore 参数 要 求 配置 为 1。 

(2) arp_announce 是 控制 系统 在 对 外 发 送 ARP 请 求 时 ,如 何 选择 ARP 请 求 数 据 包 
的 源 IP 地 址 , 即 定义 将 自己 地 址 向 外 通告 时 的 通告 级 别 。 系 统 要 发 送 的 IP 包 前 要 发 起 
一 个 ARP 请 求 ,用 于 获取 目的 IP 地 址 的 MAC 地 址 。 

0 一 一 将 本 地 任何 接口 上 的 任何 地 址 向 外 通告 (默认 ) ,如 图 5-34 所 示 , 系 统 要 发 送 的 
IP 包 源 地 址 为 ethl 的 地 址 ,IP 包 目 的 地 址 根据 路 由 表 查 询 判 断 需 要 从 eth2 网 卡 发 出 ， 
这 时 会 先 从 eth2 网 卡 发 起 一 个 ARP 请 求 , 用 于 获取 目的 IP 地 址 的 MAC 地址 。 该 ARP 
请 求 的 源 MAC 自然 是 eth2 网 卡 的 MAC 地 址 ,但 是 源 IP 地 址 会 选择 ethl 网 卡 的 地 址 。 

1 一 一 试图 仅 向 目标 网 络 通告 与 其 网 络 匹 配 的 地 址 。 

2 一 一 仅 向 与 本 地 接口 上 地 址 匹配 的 网 络 进行 通告 (DR 模型 使 用 ) ,eth2 网 卡 发 起 
ARP 请 求 时 , 源 IP 地 址 会 选择 eth2 网 卡 自身 的 IP 地 址 ,其 示意 如 图 5-35 所 示 。 

如 果 arp_announce 参数 配置 为 0, 则 网 卡 在 发 送 ARP 请 求 时 ,可 能 选择 的 源 IP 地 址 
并 不 是 该 网 卡 自身 的 IP 地 址 ,这 时 收 到 该 ARP 请 求 的 其 他 节点 或 者 交换 机 上 的 ARP 表 
中 记录 的 该 网 卡 IP 和 MAC 的 对 应 关系 就 不 正确 ,可 能 会 引发 一 些 未 知 的 网 络 问题 , 存 
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f 和 


arp_announce=0 


要 发 送 的 人 P 包 


Src IP: 192.168.1.229 送 的 ARP 请 求 
Dst IP: 192.168.1.109 要 发 送 的 请求 
ee ehl: Sre IP: 192.168.1.229 
192.168.1.229 Src Mac: eth2 s Mac 
-路 H 表 时 二 | Who has 192.168.1.109 
Dst IP: 192.168.1.109 se 一 
GW: 192.168.1.226 eth2: 


192.168.1.226 
b= > 主 4 
5-34 arp_announce 一 0 示意 


Iface: eth2 


\ 


/= 
要 发 送 的 IP 包 arp_announce=2 
SEE:197168129 | | -| Se 
Dst IP: 192.168.1.109 要 发 送 的 ARP 请 求 
ethl: Src IP: 192.168.1.226 


192.168.1.229 Src Mac: eth2 s Mac 
dks | Whohas 192.168.L109 


Dst IP: 192.168.1.109 
GW: 192.168.1.226 eth2: 
192.168.1.226 


\ 7 


Iface: eth2 


图 5-35 arp_announce 一 2 示意 


在 安全 隐患 。DR 模型 要 求 arp_announce 参数 要 求 配 置 为 2。 
arp_ignore 和 arp_announce 分 别 有 all、default、lo、ethx 等 对 应 不 同 网 卡 的 具体 参 
数 。 当 all 和 具体 网 卡 的 参数 值 不 一 致 时 , 取 较 大 值 生效 。 


2. IP 隐藏 解决 IP 冲突 


为 了 RS 能 接收 Director 发 来 的 报 文 ,需要 在 各 RS 上 也 配置 VIP, 但 RS 上 的 VIP 
是 需要 隔离 前 端 ARP 广播 的 ,所 以 需要 将 各 RS 上 的 VIP 隐藏 (RS 上 的 VIP 通常 配置 
到 lo 网 卡 接口 的 别名 上 ,并 配合 修改 Linux 内 核 参数 来 实现 隔离 ARP 广播 ) 。 


3. DR 模型 集群 配置 


(1) 准备 工作 。 

实现 DR 模型 的 LVS 集群 的 网 络 拓扑 如 图 5-36 所 示 , 包 括 1 台 Director、 两 台 
REALSERVER( 均 由 虚拟 Linux 实现 ) 和 1 个 客户 端 (由 Windows 宿主 机 实现 ) ,所 有 虚 
拟 机 计算 机 以 桥接 方式 与 宿主 机 连接 在 一 起 。 

(2) Director 配置 。 

O@ 配置 桥接 网 卡 etho 的 外 地址 为 192. 168. 1. 227 作为 DIP, 负 责 与 REALSERVER 通信 。 

四 将 eth0 分 出 一 个 子 网 卡 eth0:0 并 配置 上 VIP: 192. 168. 1. 226。 


#ifconfig eth0:0 192.168.1.226broadcast 192.168.1.226 netmask255.255.255.255up 


VIP 被 绑 定 在 环 回 接口 eth0:0 上 ,其 广播 地 址 是 本 身 , 子 网 掩 码 是 255. 255. 255. 
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Director: 
eth0: DIP 192.168.1.227 
eth0: 0 VIP 192.168.1.226 


Director 


REALSERVER1: 


ND eth0: RIP1 192.168.1.229 
< 滞 lo0: 0 VIP 192.168.1.226 
REALSERVER1 
REALSERVER2: 
站 eth0: RIP2 192.168.1.231 
KR lo0: 0 VIP 192.168.1.226 


REALSERVER2 
图 5-36 DR 模型 LVS 拓扑 图 


255。 这 与 标准 的 网 络 地 址 设置 有 所 不 同 。 采 用 这 种 可 变 长 掩 码 方式 把 网 段 划分 成 只 含 
-个 主机 地 址 的 目的 是 避免 卫 地 址 冲突 。 
@ 再 将 外 部 所 有 请 求 VIP 的 流量 都 导向 这 块 网 卡 , 所 以 需要 添加 路 由 。 


# route add -host192.168.0.36 dev eth0:0 

但 是 这 样 只 是 临时 添加 ,如 果 重 启 network 服务 ,或 者 重启 系统 ,路 由 条 目 会 消失 。 
想 永 久保 存 路 由 条 目 , 可 以 把 上 述 命令 追加 到 rc. local 中 。 

@ 在 配置 路 由 转发 ,修改 /etc/sysctl. conf 文件 。 

将 net. ipv4. ip_forward 二 0 的 值 改 成 1 ,然后 使 用 sysctl -p 命令 来 刷新 保存 的 文件 ， 
或 者 用 命令 sysctl -w 直接 写 人 内 存 : 


# sysct1 -w net.ipv4.ip _ forward=1 
GO) 配置 ipvsadm。 


#ipvsadm -C 清除 已 有 的 规则 
#ipvsadm -A -上 192.168.1.226:80 —s WII 
#ipvsadm -a -七 192.168.1.226:80 —r 192.168.1.229 ~-g—-wl 


#ipvsadm -a -t 192.168.1.226:80 - 192.168.1.231-g -w1 
# service ipvsadm save 
# service ipvsadm start 


#ipvsadm - 


查看 配置 结果 如 图 5-37 所 示 。 


图 5-37 DR 模式 配置 
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(3) 配置 REALSERVER 端 。 

以 REALSERVERI 的 配置 为 例 。 

Q@ 配置 桥接 网 卡 eth0 的 IP 地 址 为 192. 168. 1. 229 作为 RIP, 人 负责 与 Director 通信 。 
@ 配置 网 络 别名 VIP 与 静态 路 由 。 

#ifconfig lo:0192.168.1.226 broadcast 192.168.1.226 netmask 255.255.255.255 up 

#route add -host 192.168.1.226 dev 10:0 


@ 配置 /etc/sysctl. conf 文件 实现 ARP 抑制 并 查看 配置 结果 。 


#tail -5 /etc/sysct1.conf 

#LVS arp 

net .ipv4.conf.10.arp ignore =1 
net .ipv4.conf.lo.arp_announce =2 
net .ipv4.conf.all.arp ignore =1 


net .ipv4.conf.all.arp announce =2 
@ 配置 Web 服务 器 及 默认 首页 ,并 可 通过 Director 访问 。 

同样 的 流程 配置 REALSERVER2 的 RIP 为 192. 168.1.231。 

@ 通过 CIP 访问 VIP 可 以 轮流 显示 两 个 REALSERVER 的 页 面 。 

修改 REALSERVER 的 权 值 ,重新 访问 VIP 查看 效果 ,配置 如 图 5-38 所 示 。 


图 5-38 不 同 权 值 DR 模式 配置 


4. LVS-DR 模型 工作 过 程 分 析 


当 客 户 端 发 送 一 个 请 求 到 VIP 时 ,IP 数据 包 (ipdata) 携 带 的 源 IP(RSC-IP)\ 目 标 IP 
(DST-IP) 和 请 求 内 容 以 及 各 种 校 验 ,其 过 程 如 下 。 

(1) 客户 端 发 送 1 个 请 求 数据 包 到 达 交 换 机 (请 求 的 IP 为 VIP) ,此 刻 假 设 交换 机 上 
没有 VIP 对 应 的 ARP 缓存 。 

(2) 交换 机 本 地 因 没 有 VIP 对 应 的 MAC, 会 向 其 所 有 端口 发 送 ARP 广播 包 , 此 
ARP 的 广播 包 里 DST-IP 为 VIP。 

(3) 而 此 时 因 REALSERVER 和 交换 机 相连 的 端口 为 eth0。 但 是 根据 路 由 转发 
VIP 会 把 这 个 请 求 送 达 给 lo:0 上 。 由 于 REALSERVER 设置 arp_ignore 一 1, 使 其 只 回 
答 目 标 IP 地 址 是 来 自 访 问 网 络 接口 本 地 地 址 的 ARP 查询 请 求 , 所 以 lo:0 会 忽略 掉 这 个 
ARP 请 求 。 但 Director 没有 设置 arp_ignore, 会 响应 这 个 ARP 请 求 。 所 以 交换 机 得 到 
VIP 对 应 Director 的 MAC。 

(4) 交换 机 根据 得 到 的 VIP 所 对 应 的 MAC ,将 ipdata 交 给 了 Director。 
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(5) Director 将 得 到 的 ipdata 进行 拆 包 获得 请 求 的 目标 是 VIP:80, 根 据 定义 的 LVS 
规则 和 轮 询 算 法 ,确定 响应 这 个 请 求 的 REALSERVERI1 的 RIP1(RIP 假设 为 192. 168. 
1.229) 。 

(6) LVS-DR 模式 独 有 的 MAC 寻 址 ,这 个 时 候 Director 本 地 没有 RIP1 的 MAC , 遂 
发 ARP 广播 包 RIP1 的 MAC 是 多 少 。 

(7) ARP 包 经 过 eth0 口 进入 每 个 REALSERVER 系统 内 核 , 内 核 判 断 出 这 个 ARP 
请 求 目 标 IP 为 来 自 本 地 网 卡 的 IP, 于 是 给 出 ARP 的 应 答 包 并 发 给 DIP。 

(8) Director 将 RIP1 应 答 的 MAC 存 和 人 自己 的 arp -n 缓存 表 中 ,并 将 ipdata 包 的 外 
层 继续 封装 一 层 MAC 寻 址 。 此 时 的 SRC-IP 仍 为 CIP,DST-IP 为 VIP, 但 是 SRC-MAC 
为 DIP 即 Director 的 MAC,DST-MAC 为 RIP1 的 MAC。 

(9) 数据 包 到 达 REALSERVERI1 时 ,REALSERVERI1 验证 这 个 数据 包 是 不 是 自己 
能 处 理 的 需要 符合 两 个 要 求 : 一 是 MAC 是 自己 RIP1 的 ,二 是 IP 是 自己 lo:0 绑 定 的 
VIP, 于 是 将 ipdata 数据 包 接收 。 

(10) REALSERVER1 处 理 完成 之 后 响应 的 数据 包 的 SRC-IP 为 VIP,DST-IP 为 
CIP,SRC-MAC 为 RIP1 的 MAC,DST-MAC 为 CMAC( 现 实 环境 中 为 网 关 的 , 即 CIP 为 
路 由 器 网 关 ) ,完成 整个 数据 访问 过 程 。 

上 述 LVS-DR 访问 过 程 如 图 5-39 所 示 。 


CIP: 192168.1109 


A 
~ 


REALSERVER1: 
eth0: RIP1 192.168.1.229 
lo0: 0 VIP 192.168.1.226 


3 
eth0: DIP 192.168.1.227 Cf 
Eth0: 0 VIP 192.168.1.226 


ss 
Director: 


REALSERVER2: 
eth0: RIP2 192.168.1.231 
lo0: 0 VIP 192.168.1.226 


图 5-39 LVS-DR 访问 过 程 示 意 
为 验证 步骤 (7) ,使 用 tshark 抓 取 192. 168. 0. 41 网 口 流 量 验证 ARP 包 内 为 RIP 而 
非 VIP, 如 图 5-40 和 图 5-41 所 示 。 清 空 LVS 本 地 缓存 ,查看 ARP 缓存 用 arp -n, 清 除 
ARP 缓存 使 用 如 下 命令 : 
#arp -nlawk '/^[1- 9]/{print "arp ~-d " $1}'|sh -x 


另外 LVS 规则 算是 内 核 方法 ,用 netstat -ntulp 也 显示 不 了 其 侦 听 的 端口 。 启 动 日 
志 在 /var/log/message 中 。 


(FEEDEE 


图 5-40 抓 取 的 请 求 包 


图 5-41 抓 取 的 响应 包 


附 : arp_ignore 和 arp_announce 参数 的 配置 方法 。 
(1) 修改 /etc/sysctl. conf 文件 ,然后 sysctl -p 刷新 到 内 存 。 
net.ipv4.conf.all.arp ignore=1 


net .ipv4.conf.lo.arp ignore=1 


net .ipv4.conf.all.arp announce=2 


net .ipv4.conf.lo.arp_announce= 
(2) 使 用 sysctl -w 直接 写 人 内存 


sysctl -w net.ipv4.conf.all.arp ignore=1 
sysctl -w net.ipv4.conf.lo.arp_ignore=1 
sysctl -w net.ipv4.conf.all.arp_announce=2 


sysctl -w net.ipv4.conf.lo.arp_announce=2 
(3) 修改 /proc 文件 系统 。 


echo "1"> /proc/sys/net/ipv4/conf/all/arp ignore 
echo "1"> /proc/sys/net/ipv4/conf/lo/arp_ignore 
echo "2"> /proc/sys/net/ipv4/conf/all/arp_announce 


echo "2"> /proc/sys/net/ipv4/conf/10/arp announce 
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s.4 数据 库 集群 
5.4.1 数据 库 基本 概念 


数据 库 技术 是 信息 系统 的 核心 和 基础 ,研究 的 是 如 何 组 织 和 存储 数据 ,如 何 高 效 地 获 
取 和 处 理 数据 。 对 于 数据 库 , 首 先 要 知道 有 关 数 据 库 的 几 个 重要 概念 。 


1. 数据 库 (Database,DB) 
数据 库 是 长 期 存储 在 计算 机 内 ,有 组 织 的 ,可 共享 的 大 量 数据 的 集合 。 
2. 数据 库 管理 系统 (Database Management System, DBMS) 


DBMS 是 介 于 用 户 与 操作 系统 之 间 的 数据 管理 软件 。 由 于 数据 模型 分 为 层次 模型 、 
网 状 模型 和 关系 模型 ,所 以 按照 数据 模型 分 类 ,DBMS 也 分 为 3 种 。 其 中 ,MySQL 是 较 
为 常用 的 关系 数据 库 管理 系统 (Relational Database Management System,RDBMS) 。 


3. 数据 库 系统 (Database System,DBS) 


在 计算 机 系统 中 引入 数据 库 后 的 系统 构成 ,主要 由 数据 库 、 数 据 库 管 理 系统 (及 其 开 
发 工具 ) .应 用 系统 .数据库 管 理 员 (Database Administrator, DBA)4 部 分 构成 。 

数据 库 系 统 具 有 数据 结构 化 ,数据 高 共享 性 、 低 元 余 度 .高 独立 性 、 数 据 由 DBMS 统 
一 管理 和 控制 的 特点 。 但 在 大 数据 时 代 , 单 一 的 数据 库 已 经 不 能 满足 需求 。 为 了 使 数据 
库 具有 更 高 的 否 吐 量 , 更 强大 的 数据 故障 转移 能 力 , 引 入 了 数据 库 集群 。 

数据 库 集群 (Database Cluster) 是 利用 多 台数 据 库 服 务 器 构成 一 个 虚拟 单一 的 数据 
库 迎 辑 映 像 , 像 单 数据 库 系 统一 样 ,为 用 户 提供 透明 的 数据 服务 。 

数据 库 集群 主要 解决 两 个 问题 ,首先 是 负载 均衡 , 当 访问 量 过 大 的 时 候 , 一 台数 据 库 
服务 器 可 能 会 震 掉 ,而 使 用 数据 库 集群 ,多 台 服 务 器 分 担 访问 量 , 可 达到 负载 均衡 的 效果 ; 
其 次 ,是 故障 恢复 的 能 力 , 若 集群 中 一 台 服 务 器 出 现 故 障 , 不 会 使 整个 系统 停机 维护 ,而 是 
马上 有 其 他 服务 器 顶 蔡 其 工作 ,不 影响 系统 正常 运行 。 


5.4.2 MySQL 及 SQL 语句 


MySQL 是 一 个 开源 的 关系 数据 库 管理 系统 ,由 瑞典 MySQL AB 公司 开发 ,目前 属 
于 Oracle 旗下 产品 。MySQL 所 使 用 的 结构 化 查询 语言 (Structured Query Language， 
SQL) 是 用 于 访问 数据 库 的 最 常用 标准 化 语言 。 

SQL 主要 实现 数据 库 的 创建 与 删除 创建 表 、 删 除 表 、 修 改 表 、 索 引 的 创建 与 删除 、 创 
建 用 户 和 赋予 权限 、 对 数据 的 查询 与 更 新 (增加 、 删 除 和 修改 )。 

SQL 是 通过 DML、DDL 和 DCL 实现 上 述 功能 的 。 

DML(Data Manipulation Language, 数 据 操作 语言 ) ,SQL 中 处 理 数 据 的 操作 统称 为 
数据 操作 语言 。 对 数据 的 操作 主要 是 查询 (SELECT) 和 更 新 ,其 中 更 新 包括 增加 
(INSERT) ,删除 (DELETE) 和 修改 (UPDATE)。 
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DDL(Data Definition Language, 数据 定义 语 CENTE TBLE 一 创建 一 个 数据 库 表 
言 ) ,SQL 中 用 于 定义 和 管理 所 有 对 象 的 语言 。 常 用 DROP TABLE 一 从 数据 库 中 删除 表 
的 数据 定义 语言 如 图 5-42 所 示 。 刀 TER TABLE 一 修改 数据 库 表 结构 
DCL(Data Control Language, 数据 控制 语言 )， | cgarg VIgy 一 创建 一 个 视图 
SQL 中 用 来 授权 (GRANT) 或 回收 访 间 特权 | DroP VEy 一 从 数据 库 中 删除 视 因 
(REVOKE) 并 控制 数据 库 操纵 事务 发 生 的 时 间 及 效 | SEATE TMDEX 一 为 数据 库 表 创 建 一 个 索引 


果 , 对 数据 库 实行 监视 等 。 DROP INDEX 一 从 数据 库 中 删除 索引 
CREATE “PROCEDURE 一 创建 一 个 存储 过 程 
5.4.3 ”MySQL 的 备份 和 还 原 DROP ”PROCEDURE 一 从 数据 库 中 删除 存储 过 程 


CREATE TRIGGER 一 创建 一 个 触发 器 


备份 是 为 了 留 一 个 副本 ,以 便当 服务 器 发 生 故 DOE -T81000R -一 兴 吉 加 由 让 轴 计 家 商丘 
障 的 时 候 , 能 及 时 地 还 原 数据 ,不 影响 服务 器 的 使 | is scHEHA 向 数据 库 添加 一 个 新 模式 
用 。 用 硬件 备份 如 RAID 0 技术 , 仅 能 保证 当 硬 件 损 | nmop scamts 一 从 数据 库 中 暗 除 一 个 模式 
坏 时 ,业务 不 终止 。 而 实现 备份 和 还 原 数据 应 该 由 | crgare pomarw 一 创建 一 个 数据 值 域 
命令 工具 完成 。 ALTER DOMAIN 一 改变 域 定义 
DROP DOMAIN 一 从 数据 库 中 删除 一 个 域 


图 5-42 数据 定义 语言 


1. 备份 类 型 


按照 不 同 的 分 类 方式 ,备份 类 型 也 不 同 。 

按 备份 时 服务 器 是 否 在 线 分 ,可 分 为 3 类 : 热 备份 、 温 备份 和 冷 备份 。 热 备份 ,又 称 
在 线 备份 ,备份 时 , 读 写 操作 不 受 影响 .可 继续 进行 。 温 备份 ,备份 时 ,能 进行 读 操 作 , 但 不 
能 进行 写 操作 。 冷 备份 ,又 称 离线 备份 ,备份 时 , 读 写 操作 均 中 止 。 

按 备份 时 服务 器 是 直接 复制 还 是 导出 文件 分 ,可 分 为 两 类 : 物理 备份 和 逻辑 备份 。 
物理 备份 是 直接 复制 数据 文件 ,备份 数据 相对 较 快 。 逻 辑 备 份 是 将 数据 导出 至 文本 文件 
中 ,必要 时 再 还 原 回 去 ,相对 于 物理 备份 速度 较 慢 , 且 丢 失 浮 点 数 精度 ,但 使 用 方便 (文本 
处 理工 具 可 直接 对 其 处 理 ) ,可 移植 能 力 强 。 

按 备 份 的 数据 集 是 包含 了 整个 数据 文件 的 全 部 内 容 还 是 部 分 内 容 分 ,可 分 为 3 类 ， 
完全 备份 . 增 量 备 份 和 差异 备份 。 完 全 备份 是 备份 全 部 数据 。 增 量 备份 是 仅 备份 上 次 完 
全 备份 或 增 量 备份 以 后 变化 的 数据 。 差 异 备 份 是 仅 备份 上 次 完全 备份 以 来 变化 的 数据 ， 
差异 备份 比 增 量 备份 所 占 空 间 多 ,但 还 原 速度 相对 快 。 通 常 , 增 量 备份 和 差异 备份 仅 执行 
一 个 即 可 。 


2. 备份 内 容 
一 般 备 份 时 ,要 备份 数据 文件 .配置 文件 二 进 制 日 志 以 及 事务 日 志 。 
3. 备份 工具 


1) MySQL 自 带 的 备份 工具 

MySQL 自 带 的 备份 工具 有 mysqldump 和 mysqlhotcopy 两 个 。Mysqldump 是 逻辑 
备份 工具 ,支持 所 有 引擎 。 但 对 于 不 同 引 擎 备份 的 属性 不 同 , 对 于 MyISAM 引擎 属于 温 
备份 ,对 于 InnoDB 引擎 属于 热 备 份 。Mysqldump 虽然 还 原 速度 很 慢 , 但 具有 很 好 的 弹 


192 基于 Linux 的 主机 运行 维护 


性 。Mysql hot copy 是 物理 备份 工具 , 仅 支持 MyISAM 引擎 ,属于 冷 备份 ,备份 速度 相对 
较 快 。 

2) 文件 系统 工具 

文件 系统 工具 主要 有 两 种 ,cp 备份 和 LVM(Logical Volume Manager) 的 快照 。cp 
备份 是 通过 复制 命令 实现 备份 ,只 能 实现 冷 备份 ,但 还 原 速度 很 快 。LVM 的 快照 功能 可 
实现 热 备份 ,但 不 能 对 多 个 逻辑 卷 同时 进行 备份 ,所 以 数据 文件 和 日 志 等 必须 放 在 同一 个 
好 辑 卷 上 。 

3) 其 他 工具 

除了 MySQL 自 带 的 备份 工具 和 文件 系统 工具 外 ,还 有 一 些 专业 的 备份 工具 , 如 
xtrabackup 是 一 个 开源 的 备份 工具 ,功能 强大 ,支持 热 备 份 ;ibbackup 是 一 个 功能 强大 ， 
但 价格 昂贵 的 商业 工具 。 


5.4.4 MySQL 主 从 复制 


MySQL 的 主 从 复制 是 一 个 异步 的 复制 过 程 (感觉 上 是 实时 的 ), 数 据 将 从 一 个 
MySQL 数据 库 (Master) 复 制 到 另 一 个 MySQL 数据 库 (Slave) ,在 Master 与 Slave 之 间 
实现 整个 主 从 复制 的 过 程 是 由 三 个 线程 参与 完成 的 。 其 中 有 两 个 线程 (SQL_Thread 和 
I/O_Thread) 在 Slave 端 , 另 一 个 线程 Cdump) 在 Master 端 。 

要 实现 MySQL 的 主 从 复制 ,首先 必须 打开 Master 端的 Binary log( 二 进 制 日 志文 
件 ) 记 录 功 能 ,因为 整个 复制 过 程 实际 上 就 是 Slave 先 从 Master 端 获 取 Binary log 日 志 ， 
存放 至 本 机 的 Relay log( 中 继 日 志 ) 中 ,然后 Slave 端 按 照 Relay log 日 志 中 记录 的 操作 顺 
序 执行 各 SQL 操作 。 主 从 复制 原理 图 如 图 5-43 所 示 。 


Master Slave 


5-43” 主 从 复制 原理 图 


主 从 复制 配置 过 程 : 
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1. 安装 MySQL 软件 


安装 MySQL 服务 器 端 : yum install -y mysql 
安装 MySQL-server: yum install -y mysql-server 
启动 服务 : service mysqld start 

为 MySQL 创建 一 个 root 管理 员 ( 密 码 为 123456): 


mysqladmin -u root password 123456 


[roor8]jlnu ~]# mysqladmin -u root Password 123456 
[roor8jlnu ~]# mysql -u roor -p 

Enter password: 

|welcome to the MySQL monitor. Commands end with ; or \g- 
Your MySQL connection id is 3 


Server version: 5.1.73 Source distriburion 
Copyright (c) 2000, 2013, Oracle and/or its affiliates. All rights reserved 
oracle is na registered trademark of Oracle Corporation and/or its 
arriliates. Other names may be trademarks of their respective 


Type ‘help;' or '\h' for help. Type '\c' to clear he current inpur statement 


sa> 0 


图 5-44 登录 MySQL 用 户 root 


2. 修改 主 配 置 (my. cnf) 文 件 


(1) Master 配置 如 图 5-45 所 示 


[root@jlnu ~]§ vi /etc/my.cnf 
[IT 

aaraai 一 /var/libymyaaql 

socrer-ywar/1lib/mysql/mysaql .socr 

user-mysql 

# Disabling symbolic-links is recommended to prevent aasorted security risks 
symbolic-links=0 


log-error=/var/log/mysqld.1og 
pid-file=/var/run/mysqld/mysqld.pid 


图 5-45 ”Master 配置 


主要 添加 的 是 如 下 三 行 : 


log- bin=mysql- bin // 为 二 进 制 日 志 取 名 为 mysql-bin 
binlog format=mixed // 设 置 二 进 制 日 志 格式 
server- id=1 // 为 Master 设 置 唯 一 的 ID 


(2) Slave 配置 如 图 5-46 所 示 。 
主要 添加 的 也 是 如 下 三 行 : 


log- bin=mysql- bin // 二 进 制 日 志 名 称 : mysql-bin 
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[FTT 

atadir=/var/1ib/mysql 

socket=/var/lib/mysql/mysql.a0ck 

ser—nysql 

# Disabling aymbolic-links is recommended to prevent asaorted security risks 
symbolic-links 

1og-bin-mysql-bin 


binlog format=mixed 


ar/log/mysqld. 10g 
pid-file=/var/run/mysqld/mysqld.pid 


图 5-46 ”Slave 配置 


binlog format=mixed ”// 二 进 制 日 志 格 式 
server- id=2 // 为 slave 设 置 唯一 的 ID, 不 能 与 Master 相同 


3. 在 Master 上 为 Slave 分 配 一 个 账号 ,Slave 可 凭借 此 账号 得 到 Master 的 日 志文 件 
转 入 MySQL 操作 界面 ,输入 命令 : 

GRANT replication slave ON * .* TO 'slave'@'$ ' IDENTIFIED BY '123456'; 

分 配 账号 命令 内 容 解 析 如 图 5-47 所 示 


[roorejlou ~]# mysql -u roor -p 

Enter password: 

[Relcome to the MysQL monitor. Commands end with ; or \g 
rour MysQL connection id is 2 

Server version: 5.1.73-1og Source distriburion 


ICopyright (c) 2000, 2013, Oracle and/or its affiliates. All righra reserved. 
oracle is a regisrered trademark of Oracle Corporarion and/or its 


larfiliates. Other names may be trademarks of 


shese reppeeriye LIL ph 

msc 分 配 复制 权限 可 操作 的 数据 库 用 性 各 "有 电脑 使 和 有 此 账号 登陆 站 

re et 辐 eor ae mA Ps 和 Garren iapac scfr El 
] fav eft"] oprrrreD ax [123456° 


图 5-47 ”分配 账号 命令 内 容 解析 


重新 启动 服务 : service mysqld restart 
4. 查看 Master 的 偏 移 量 
从 MySQL 界面 看 ,如 图 5-48 所 示 


Imysql> show master statu: 
-- —-- 4---- + -+ 
1 Position | Binlog Do DB | Binlog Ignore DB | 

MH a 


1 mysql-bin.000003 | 
Pls 
1 row in set (0.00 sec) 


图 5-48 ”Master 的 偏 移 量 


5. 设置 Slave 


进入 MySQL 界面 .输入 的 代码 如 图 5-49 所 示 
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change master to 
master host="192.168.5.138°, 
master_ user="slave™, 

master password="123456™, 


master 10g file-"mysql-bin.000003", 
master log pos-106: 
Query OK, 0 rows affected (0.00 sec) 


在 Slave 端 启动 slave 进程 


命 


心 
7 


mysql> start slave; 


查看 slave 同步 情况 


A 人 信 
节令 : 


mysql> show slave status; 


至 此 ,MySQL 主 从 配置 完 


图 5-49 Slave 代码 


第 6 章 分 布 式 文件 系统 Hadoop 


6.1 Hadoop 简介 


Hadoop 是 一 个 由 Apache 基金 会 的 开源 组 织 开 发 的 分 布 式 系统 基础 架构 。Hadoop 为 
应 用 程序 提供 了 一 组 稳定 可 靠 的 接口 。 用 户 利用 Hadoop 可 以 在 由 大 量 廉价 的 硬件 设备 组 
成 的 集群 上 运用 应 用 程序 ,构建 一 个 具有 高 可 靠 性 和 良好 扩展 性 的 分 布 式 系统 ,并 可 以 在 不 
了 解 分 布 式 底层 细节 的 情况 下 ,开发 分 布 式 程序 ,充分 利用 集群 的 威力 进行 高 速 运算 和 存储 。 

Hadoop 实现 了 一 个 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS)。 
HDFS 是 一 个 具有 高 容错 性 的 系统 ,适合 部 署 在 低廉 的 (low-cost) 硬 件 上 。HDFS 可 提 
供 高 春 吐 量 (high throughput) 访 问 应 用 程序 的 数据 ,适合 那些 有 着 超大 数据 集 (large 
data set) 的 应 用 程序 。HDFS 放宽 了 (relax) POSIX 的 要 求 ,可 以 流 的 形式 访问 
(streaming access) 文 件 系统 中 的 数据 。 

Hadoop 原本 是 来 自 谷 歌 公 司 的 一 款 名 为 MapReduce 的 编程 模型 包 。 和 谷歌 公司 的 
MapReduce 框架 可 以 把 一 个 应 用 程序 分 解 为 许多 并 行 计 算 指 令 , 跨 大 量 的 计算 节点 运行 
非常 巨大 的 数据 集 。 使 用 该 框架 的 一 个 典型 例子 就 是 在 网 络 数据 上 运行 的 搜索 算法 。 
Hadoop 最 初 只 与 网 页 索引 有 关 , 但 后 来 却 迅速 地 发 展 成 为 了 分 析 大 数据 的 领先 平台 。 

Hadoop 是 一 个 能 够 让 用 户 轻 松 架构 和 使 用 的 分 布 式 计算 平台 。 用 户 可 以 在 
Hadoop 上 开发 .运行 和 处 理 海量 数据 的 应 用 程序 。 它 主要 有 以 下 5 个 优点 。 

(1) 高 可 靠 性 。Hadoop 具有 按 位 存储 和 处 理 数 据 的 能 力 。 

(2) 高 扩展 性 。Hadoop 在 可 用 的 计算 机 集 徐 间 分 配 数 据 并 完成 计算 任务 ,这 些 集 徐 
可 以 方便 地 扩展 到 数 以 千 计 的 节点 中 。 

(3) 高 效 性 。Hadoop 能 够 在 节点 之 间 动 态 地 移动 数据 ,并 保证 各 个 节点 的 动态 平 
衡 ,因此 处 理 速 度 非常 快 。 

(4) 高 容错 性 。Hadoop 能 够 自动 保存 数据 的 多 个 副本 ,并 且 能 够 将 失败 的 任务 重新 
分 配 。 

(5) 低 成 本 。 与 一 体 机 、 商 用 数据 仓库 以 及 QlikView、Yonghong2-Suite 等 数据 集 相 
比 ,Hadoop 是 开源 的 ,因此 项 目的 软件 成 本 会 大 大 降低 。 

Hadoop 的 框架 最 核心 的 设计 就 是 HDFS、MapReduce 和 HBase。HDFS 为 海量 的 数据 
提供 了 存储 ;MapReduce 为 海量 的 数据 提供 了 计算 ;HBase 为 海量 的 数据 提供 了 结构 化 存储 。 


6.2 ”Hadoop 架构 原理 


Hadoop 由 许多 元 素 构成 ,如 图 6-1 所 示 。 其 最 底部 是 HDFS, 它 存储 Hadoop 集群 
中 所 有 存储 节点 上 的 文件 。HDFS 的 上 一 层 是 MapReduce 引擎 。 该 引擎 由 JobTrackers 
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和 TaskTrackers 组 成 。 通 过 对 Hadoop 分 布 式 计算 平台 最 核心 的 HDFS、MapReduce 的 
处 理 过 程 , 以 及 数据 仓库 工具 Hive 和 分 布 式 数据 库 Hbase 的 介绍 ,基本 涵盖 了 Hadoop 
分 布 式 平台 的 所 有 技术 核心 。Pig 和 Sqoop 本 书 不 做 介绍 。 


Hive 


Sqool 
(SQL) 


Pig 
(Data Flow) 


MapReduce 
(Job Trackers and TaskTrackers) 


Hbase 
(Column Database) 


HDFS 
(Hadoop Distributed File System) 


图 6-1 Hadoop 架构 


Hadoop 架构 的 具体 细 化 如 图 6-2 所 示 , 有 两 个 服务 器 机 柜 , 每 个 圆柱 代表 一 台 物 理 
机 ,各 个 物理 节点 通过 网 线 连 接 到 交换 机 ,然后 客户 端 通过 互联 网 来 访问 。 其 中 各 物理 机 
上 都 运行 着 Hadoop 的 一 些 后 台 进 程 。 


1000Mbit 


100Mbit 


国 JobTacker 


100Mbit 


[la 
DataNode 


6-2 ”Hadoop 架构 细 化 图 


下 面 先 简单 介绍 Hadoop 系统 中 的 几 个 重要 概念 。 
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1. NameNode 


NameNode 也 叫 名 称 节点 或 者 主 节点 ,是 HDFS 的 守护 程序 (核心 程序 ) ,对 整个 分 
布 式 文件 系统 进行 总 控制 ,会 记录 所 有 元 数据 分 布 存 储 的 状态 信息 ,如 文件 是 如 何 分 割 成 
数据 块 的 ,以 及 这 些 数据 块 被 存储 到 哪些 节点 上 ,还 对 内 存 和 1/O 进行 集中 管理 。 用 户 
首先 会 访问 NameNode, 通 过 该 总 控 节 点 获取 文件 分 布 的 状态 信息 ,找到 文件 分 布 在 哪些 
DataNode, 然 后 再 访问 这 些 节 点 把 文件 拿 到 ,所 以 这 是 一 个 核心 节点 。 不 过 这 是 一 个 单 
点 ,发 生 故 障 将 使 集群 崩溃 。 


2. Secondary NameNode 


从 名 字 上 看 ,Secondary NameNode 给 人 的 感觉 就 像 是 NameNode 的 备份 ,但 实际 上 
不 是 , 它 可 以 称 为 辅助 名 称 节点 ,或 者 检查 点 节点 ,如 图 6-3 所 示 。 它 是 监控 HDFS 状态 
的 辅助 后 台 程 序 , 可 以 保存 名 称 节点 的 副本 , 故 每 个 集群 都 有 一 个 , 它 与 NameNode 进行 
通信 ,定期 保存 HDFS 元 数据 快照。 


Secondary NameNode 


NameNode 
JobTracker 


DataNode 


DataNode DataNode DataNode 


TaskTracker TaskTracker TaskTracker TaskTracker 


6-3 Secondary NameNode 


3. DataNode 


DataNode 是 数据 节点 ,每 台 从 服务 器 节点 运行 一 个 DataNode, 负 责 把 HDFS 数据 
块 读 / 写 到 本 地 文件 系统 。 NameNode、Secondary NameNode 和 DataNode 组 成 了 
Hadoop 平台 中 的 一 个 支柱 一 一 HDFS 体系 。 


4. JobTracker 


Hadoop 平台 的 另 一 个 支柱 是 MapReduce。 它 有 两 个 后 台 进 程 ,JobTracker 是 其 中 
之 一 。 它 是 运行 到 主 节点 上 的 一 个 很 重要 的 进程 ,是 MapReduce 体系 的 调度 器 ,用 于 处 
理 作 业 ( 用 户 提 交 的 代码 ) 的 后 台 程 序 . 决 定 有 哪些 文件 参与 作业 的 处 理 , 然 后 把 作业 切割 
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成 为 一 个 个 的 小 task ,并 把 它们 分 配 到 所 需要 的 数据 所 在 的 子 节点 。 

Hadoop 的 原则 是 就 近 运 行 ,数据 和 程序 要 在 同一 个 物理 节点 里 ,数据 在 哪里 ,程序 
就 去 哪里 运行 。 这 个 工作 是 JobTracker 做 的 ,监控 task, 还 会 重启 失败 的 task( 于 不 同 的 
节点 ) ,每 个 集群 只 有 唯一 一 个 JobTracker, 类 似 单 点 的 nn, 位 于 Master 节点 。 


5. TaskTracker 


MapReduce 的 另 一 个 后 台 进 程 是 TaskTracker, 即 任务 跟踪 器 。 它 是 MapReduce 体 
系 的 最 后 一 个 后 台 进 程 , 位 于 每 个 Slave 节点 上 ,与 DataNode 结合 (代码 与 数据 一 起 的 原 
则 ) ,管理 各 自 节点 上 的 task( 由 JobTracker 分 配 ) ,每 个 节点 只 有 一 个 TaskTracker, 但 一 
个 TaskTracker 可 以 启动 多 个 JVM, 用 于 并 行 执行 Map 或 Reduce 任务 , 它 与 
JobTracker 交互 通信 ,可 以 告知 JobTracker 子 任务 的 完成 情况 。 


6. Master 与 Slave 


Master 节点 : 运行 了 NameNode 或 者 Secondary NameNode 或 者 JobTracker 的 节 
点 。 还 有 浏览 器 (用 于 观看 管理 界面 ) 等 其 他 Hadoop 工具 。Master 不 是 唯一 的 。 
Slave 节点 : 运行 TaskTracker、DataNode 的 机 器 。 


6.3 ”Hadoop 的 使 用 场景 


在 大 数据 背景 下 ,业界 对 于 Hadoop 这 个 开源 分 布 式 技术 的 了 解 也 在 不 断 加 深 。 但 
谁 才 是 Hadoop 的 最 大 用 户 呢 ? 首先 被 想到 的 是 它 的 “发 源 地 ”, 像 谷歌 公司 这 样 的 大 型 
互联 网 搜索 引擎 ,以 及 Yahoo 专门 的 广告 分 析 系 统 。 大 多 数 人 认为 Hadoop 平台 发 挥 作 
用 的 领域 是 互联 网 行业 ,用 来 改善 分 析 性 能 并 提高 扩展 性 。 其 实 Hadoop 的 应 用 场景 远 
不 止 这 一 点 ,深入 挖掘 会 发 现 Hadoop 能 够 在 许多 地 方 发 挥 巨大 的 作用 。 

美国 知名 科技 博客 GigaOM 的 专栏 作家 Derrick Harris 跟踪 云 计 算 和 Hadoop 技术 
已 有 多 年 ,他 也 在 最 近 的 一 篇 文章 中 总 结 了 10 个 Hadoop 的 应 用 场景 ,下 面 分 享 给 读者 。 

J@D 在 线 旅游 : 目前 全 球 范围 内 80% 的 在 线 旅 游 网 站 都 是 在 使 用 Cloudera 公司 提供 
的 Hadoop 发 行 版 ,其 中 SearchBI 网 站 曾经 报道 过 的 Expedia 也 在 其 中 。 

@ 移动 数据 : Cloudera 公司 运营 总 监 称 ,美国 有 70% 的 智能 手机 数据 服务 背后 是 由 
Hadoop 来 支撑 的 。 也 就 是 说 ,包括 数据 的 存储 以 及 无 线 运营 商 的 数据 处 理 等 ,都 是 在 利 
用 Hadoop 技术 。 

@ 电子 商务 : 这 一 场景 应 该 是 非常 确定 的 ,eBay 就 是 最 大 的 实践 者 之 一 。 国 内 的 电 
商 在 Hadoop 技术 上 也 是 储备 颇 为 雄厚 。 

@ 能 源 开采 : Chevron 公司 是 全 美 第 二 大 石油 公司 , 它 的 IT 部 门 主 管 介绍 了 
Chevron 使 用 Hadoop 的 经 验 一 一 利用 Hadoop 进行 数据 的 收集 和 处 理 , 尤 其 是 海洋 的 地 
震 数 据 ,以 便 找到 油 矿 的 位 置 。 

加 节能 : 另 一 家 能 源 服务 商 Opower 也 在 使 用 Hadoop 为 消费 者 提供 节约 电费 的 服 
务 一 一 对 用 户 电 费 单 进行 预测 分 析 。 


200 基于 Linux 的 主机 运行 维护 


基础 架构 管理 : 这 是 一 个 非常 基础 的 应 用 场景 ,用 户 可 以 用 Hadoop 从 服务 器 、 交 
换 机 以 及 其 他 的 设备 收集 并 分 析 数 据 。 

@ 〇 图 像 处 理 : 创业 公司 Skybox Imaging 使 用 Hadoop 来 存储 并 处 理 图 片 数据 ,通过 
卫星 拍摄 的 高 清 图 像 探测 地 理 变化 。 

@ 诈骗 检测 : 用 户 对 这 个 场景 接触 得 比较 少 ,一 般 金融 服务 或 者 政府 机 构 会 用 到 。 
利用 Hadoop 来 存储 所 有 的 客户 交易 数据 ,包括 一 些 非 结构 化 的 数据 ,能 够 帮助 机 构 发 现 
客户 的 异常 活动 ,预防 欺诈 行为 的 发 生 。 

@ IT 安全 : 除 企业 IT 基础 机 构 的 管理 之 外 , Hadoop 还 可 以 用 来 处 理 机 器 生成 的 
数据 ,以 便 甄别 来 自 恶意 软件 或 者 网 络 的 攻击 。 

四 医疗 保健 : 医疗 行业 也 会 用 到 Hadoop , 像 IBM 公司 的 Watson 就 会 使 用 Hadoop 
集群 作为 其 服务 的 基础 ,包括 语义 分 析 等 高 级 分 析 技术 等 。 医 疗 机 构 可 以 利用 语义 分 析 
为 患者 提供 医护 人 员 ,并 协助 医生 更 好 地 为 患者 进行 诊断 。 


6.4 Hadoop 分 布 式 文件 系统 


Hadoop 分 布 式 文件 系统 (HDFS) 被 设计 成 适合 运行 在 通用 硬件 (commodity 
hardware) 上 的 分 布 式 文件 系统 。 它 和 现 有 的 分 布 式 文件 系统 有 很 多 共同 点 。 但 同时 , 它 
和 其 他 的 分 布 式 文件 系统 的 区 别 也 是 很 明显 的 。HDFS 是 一 个 具有 高 度 容错 性 的 系统 ， 
适合 部 署 在 廉价 的 机 器 上 。HDFS 能 提供 高 乔 吐 量 的 数据 访问 ,非常 适合 在 大 规模 数据 
集 上 使 用 。HDFS 放宽 了 一 部 分 POSIX 约束 ,以 实现 流 式 读 取 文件 系统 数据 的 目的 。 它 
可 以 和 MapReduce 编程 模型 很 好 地 结合 ,能 够 为 应 用 程序 提供 高 吞吐 量 的 数据 访问 , 适 
用 于 大 数据 集 应 用 程序 。 


6.4.1 设计 思想 
1. 硬件 失效 是 “常态 事件 ”而 非 * 偶 然 事件 ” 


HDFS 可 能 是 由 上 千 台 机 器 组 成 的 ,每 台 服务 器 上 都 存储 着 文件 系统 的 部 分 数据 ,而 
任何 一 台 机 器 都 有 可 能 出 现 故障 ,硬件 错误 是 常态 而 不 是 异常 。 因 此 ,数据 的 健壮 性 错误 
检测 和 快速 .自动 地 恢复 运行 是 HDFS 的 核心 架构 目标 。 


2. 流 式 数据 访问 


运行 在 HDFS 上 的 应 用 和 普通 的 应 用 不 同 , 需 要 流 式 访问 它们 的 数据 集 。HDFS 
的 设计 中 更 多 地 考虑 到 了 数据 批 处 理 ,而 不 是 用 户 交 互 处 理 。 与 数据 访问 的 低 延 迟 问 
题 相 比 ,数据 访问 的 高 吞吐 量 更 为 重要 。POSIX 标准 设置 的 很 多 硬性 约束 对 HDFS 应 
用 系统 不 是 必需 的 。 为 了 提高 数据 的 吞吐 量 , 在 一 些 关键 方面 对 POSIX 的 语义 做 了 
修改 。 


3. 大 规模 数据 集 
运行 在 HDFS 上 的 应 用 一 般 都 具有 很 大 的 数据 集 。HDFS 的 一 般 企 业 级 的 文件 大 
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小 都 为 太 字 节 至 拍 字 节 。 因 此 ,HDFS 被 调节 以 支持 大 文件 存储 。 它 应 该 能 提供 整体 上 
较 高 的 数据 传输 带宽 ,能 在 一 个 集群 里 扩展 到 数 百 个 节点 。 一 个 单一 的 HDFS 实例 应 该 
能 支撑 数 以 千 万 计 的 文件 ,并 且 能 在 一 个 集群 里 扩展 到 数 百 个 节点 。 


4. 简单 的 一 致 性 模型 


HDFS 应 用 需要 一 et ed 的 文件 访问 模型 。 一 个 文件 经 过 创建 、 写 
入 和 关闭 之 后 就 不 需要 改变 。 这 一 假设 简化 了 数据 一 致 性 问题 ,并 且 使 高 吞吐 量 的 数据 
访问 成 为 可 能 。MapReduce 应 a 目前 还 有 计 
划 扩 充 这 个 模型 ,让 它 支持 文件 的 附加 写 操作 。 


5. 移动 计算 比 移动 数据 更 划算 


一 个 应 用 请 求 的 计算 , 离 它 操作 的 数据 越 近 就 越 高 效 , 在 数据 达到 海量 级 的 时 候 更 是 
如 此 。 因 为 这 样 能 降低 网 络 阻塞 的 影响 ,提高 系统 数据 的 吞吐 量 。 将 计算 移动 到 数据 附 
近 显然 比 将 数据 移动 到 应 用 所 在 地 更 高 效 。HDFS 为 应 用 提供 了 自己 移动 到 数据 附近 的 
接口 功能 。 


6. 异 构 软 硬件 平台 间 的 可 移植 性 


on 人 了 平台 的 可 移植 性 。 这 种 特性 为 HDFS 作为 大 规模 数 
用 平台 的 推广 提供 了 方便 。 


6.4.2 体系 结构 


HDFS 采用 Master/Slave 架构 。 一 个 HDFS 集群 由 一 个 NameNode 和 一 定数 目的 
DataNode 组 成 ,如 图 6-4 所 示 。NameNode 管理 文件 系统 的 元 数据 ,DataNode 存储 实际 
的 数据 。 客 户 端 联系 NameNode 以 获取 文件 的 数据 ,而 真正 的 文件 1/O 操作 是 直接 和 
DataNode 进行 交互 。 

具体 来 说 , NameNode 就 是 一 个 中 心服 务 器 ,负责 管理 文件 系统 的 名 字 空 间 
(Namespace) ,客户 端 对 文件 的 访问 以 及 记录 命名 空间 内 的 任何 改动 或 命名 空间 本 身 的 
属性 改动 。 集 群 中 的 DataNode 一 般 是 一 个 节点 一 个 ,负责 管理 它 所 在 节点 上 的 存储 。 
HDFS 开放 了 文件 系统 的 命名 空间 .以便 用 户 能 够 以 文件 的 形式 在 上 面 存储 数据 。 从 内 
部 看 ,一 个 文件 其 实 被 分 成 一 个 或 多 个 数据 块 (block) ,这 些 块 存储 在 一 组 DataNode 上 。 
NameNode 执行 文件 系统 的 名 字 空 间 操作 ,如 打开 、 关 闭 、 重 命名 文件 或 目录 。 它 也 负责 
确定 数据 块 到 具体 DataNode 节点 的 映射 。DataNode 负责 处 理 文件 系统 客户 端的 读 写 
请 求 , 在 NameNode 的 统一 调度 下 进行 数据 块 的 创建 .删除 和 复制 。 

NameNode 和 DataNode 可 以 在 普通 的 商用 机 器 上 和 运行。 这 些 机 器 一 般 运 行 着 
GNU/Linux 操作 系统 (OS)。HDFS 采用 Java 语言 开发 ,因此 任何 支持 Java 的 机 器 都 可 
以 部 署 NameNode 或 DataNode。 由 于 采用 了 可 移植 性 极 强 的 Java 语言 ,使 得 HDFS 可 
以 部 署 到 多 种 类 型 的 机 器 上 。 一 个 典型 的 部 署 场景 是 一 台 机 器 上 只 运行 一 个 NameNode 
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图 6-4 HDFS 组 成 


实例 ,而 集群 中 的 其 他 机 器 分 别 运 行 一 个 DataNode 实例 。 这 种 架构 并 不 排斥 在 一 台 机 
器 上 运行 多 个 DataNode, 只 不 过 这 样 的 情况 比较 少见 。 

NameNode 是 所 有 HDFS 元 数据 的 仲裁 者 和 管理 者 ,也 就 是 客户 端 从 NameNode 请 
求 获得 组 成 文件 的 数据 块 的 位 置 列表 后 ,直接 从 DataNode 上 读 取 文 件数 据 , NameNode 
不 参与 文件 的 传输 。 

HDFS 的 典型 部 署 是 在 一 个 专门 的 机 器 上 运行 NameNode, 集 群 中 的 其 他 机 器 各 运行 
一 个 DataNode; 也 可 以 在 运行 NameNode 的 机 器 上 同时 运行 DataNode, 或 者 在 一 台 机 器 上 
运行 多 个 DataNode。 这 种 一 个 集群 只 有 一 个 NameNode 的 设计 大 大 简化 了 系统 架构 。 

NameNode 使 用 事务 日 志 (EditLog) 记 录 HDFS 元 数据 的 变化 ,使 用 映像 文件 
(FsImage) 存 储 文件 系统 的 命名 空间 ,包括 文件 的 映射 文件 的 属性 信息 等 。 事务 日 志 
映像 文件 都 存储 在 NameNode 的 本 地 文件 系统 中 。 

NameNode 启动 时 ,从 磁盘 中 读 取 映像 文件 和 事务 日 志 , 把 事务 日 志 的 事务 都 应 用 到 
内 存 中 的 映像 文件 上 ,然后 将 新 的 元 数据 刷新 到 本 地 磁盘 的 新 的 映像 文件 中 ,这 样 可 以 截 
去 旧 的 事务 日 志 , 这 个 过 程 称 为 检查 点 (Checkpoint)。HDFS 中 的 Secondary NameNode 
辅助 NameNode 处 理 映 像 文件 和 事务 日 志 。NameNode 启动 的 时 候 合并 映像 文件 和 事 
务 日 志 , 而 Secondary NameNode 会 周期 性 地 从 NameNode 上 复制 映像 文件 和 事务 日 志 
到 临时 目录 ,合成 并 生成 新 的 映像 文件 后 再 重新 上 传 到 NameNode,NameNode 更 新 映像 
文件 并 清理 事务 日 志 ,使 得 事务 日 志 的 大 小 始终 控制 在 可 配置 的 限度 中 。 


6.4.3 数据 复制 


HDFS 的 主要 设计 目标 之 一 就 是 在 一 个 大 集群 中 可 以 跨 机 器 可 靠 地 存储 海量 文件 ， 
具备 较为 完善 的 宛 余 备份 和 故障 恢复 机 制 ,即使 在 故障 情况 下 也 能 保证 数据 存储 的 可 
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1. 宛 余 备 份 


HDFS 将 每 个 文件 存储 成 一 系列 数据 块 , 默 认 大 小 为 64MB( 可 配置 )。 为 了 容错 , 文 
件 的 所 有 数据 块 都 会 有 副本 (副本 数量 即 复 制 因子 ,可 配置 )。HDFS 的 文件 都 是 一 次 性 
写 入 的 ,并 且 严 格 限制 任何 副本 都 只 有 一 个 写 用 户 。DataNode 使 用 本 地 文件 系统 来 存储 
HDFS 的 数据 ,但 是 它 对 HDFS 的 文件 一 无 所 知 ,只 是 用 一 个 个 文件 存储 HDFS 的 每 个 
数据 块 。 当 DataNode 启动 的 时 候 , 它 会 遍历 本 地 文件 系统 ,产生 一 份 HDFS 数据 块 和 本 
地 文件 对 应 关系 的 列表 ,并 把 这 个 报告 发 给 NameNode, 这 就 是 块 报告 (Blockreport)。 块 
报告 包括 了 DataNode 上 所 有 块 的 列表 。 


2. 副本 存放 


HDFS 集群 一 般 运行 在 由 跨越 多 个 机 架 的 计算 机 组 成 的 集群 上 ,不 同 机 架 上 的 两 台 
机 器 之 间 的 通信 需要 经 过 交换 机 。 在 大 多 数 情况 下 ,同一 个 机 架 内 的 两 台 机 器 间 的 带宽 
会 比 不 同 机 架 的 两 台 机 器 间 的 带宽 大 ., 它 能 影响 HDFS 的 可 靠 性 和 其 他 性 能 。 

副本 的 存放 是 HDFS 可 靠 性 和 其 他 性 能 的 关键 。 优 化 的 副本 存放 策略 是 HDFS 区 
分 于 其 他 大 部 分 分 布 式 文件 系统 的 重要 特性 。 这 种 特性 需要 做 大 量 的 调 优 ,并 需要 经 验 
的 积累 。HDFS 采用 一 种 称 为 机 架 感 知 (Rack-aware) 的 策略 来 改进 数据 的 可 靠 性 .可 用 
性 和 网 络 带宽 的 利用 率 。 

通过 一 个 机 架 感 知 的 过 程 , NameNode 可 以 确定 每 个 DataNode 所 属 的 机 架 ID。 一 
个 简单 但 没有 优化 的 策略 就 是 将 副本 存放 在 不 同 的 机 架 上 ,这 样 可 以 有 效 防止 当 整 个 机 
架 失 效 时 数据 的 丢失 ,并且 人 允许 读数 据 的 时 候 充 分 利用 多 个 机 架 的 带宽 。 这 种 策略 设置 
可 以 将 副本 均匀 分 布 在 集群 中 ,有 利于 当 组 件 失效 情况 下 的 负载 均衡 。 但 是 ,因为 这 种 策 
略 的 一 个 写 操作 需要 传输 数据 块 到 多 个 机 架 , 这 增加 了 写 的 代价 。 

在 大 多 数 情况 下 ,副本 系数 是 3,HDFS 的 存放 策略 是 将 一 个 副本 存放 在 本 地 机 架 的 
节点 上 。 一 个 副本 放 在 同一 机 架 的 另 一 个 节点 上 ,最 后 一 个 副本 放 在 不 同 机 架 的 节点 上 。 
图 6-5 体现 了 复制 因子 变 回 3 的 情况 下 各 数据 块 的 分 布 情况 。 这 种 策略 减少 了 机 架 间 的 
数据 传输 ,提高 了 写 操作 的 效率 。 机 架 的 错误 远 远 比 节点 的 错误 少 ,所 以 这 个 策略 不 会 影 
响 数据 的 可 靠 性 和 可 用 性 。 与 此 同时 ,因为 数据 块 只 放 在 两 个 (不 是 3 个 ) 不 同 的 机 架 上 ， 
所 以 此 策略 减少 了 读 取 数据 时 需要 的 网 络 传输 总 带宽 。 在 这 种 策略 下 ,副本 并 不 是 均匀 
分 布 在 不 同 的 机 架 上 ,而 是 三 分 之 一 的 副本 在 一 个 节点 上 ,三 分 之 一 的 副本 在 一 个 机 架 
上 ,其 他 副本 均匀 分 布 在 剩 下 的 机 架 中 ,这 一 策略 在 不 损害 数据 可 靠 性 和 读 取 性 能 的 情况 
下 改进 了 写 的 性 能 。 


3. 副本 选择 


为 了 降低 整体 的 带宽 消耗 和 读 延 时 ,HDFS 会 尽量 让 reader 读 最 近 的 副本 。 如 果 在 
reader 的 同一 个 机 架 上 有 一 个 副本 ,那么 就 读 该 副本 。 如 果 一 个 HDFS 集群 跨越 多 个 数 
据 中 心 ,那么 reader 也 将 首先 尝试 读本 地 数据 中 心 的 副本 。 
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数据 块 副本 
| NameNode (文件 名 ， 副 本 名 ， 数 据 块 ID,…) | 


/user/grid/data/part-0, r:3, {1, 2}, … 
/user/grid/data/part-1, r:3, {3, 4, 5}, … 


机 架 1 机 架 2 


图 6-5 复制 因子 为 3 时 的 数据 块 分 布 情况 


4. 心跳 检测 


NameNode 周期 性 地 从 集群 中 的 每 个 DataNode 接收 心跳 包 和 块 报告 ,NameNode 
可 以 根据 这 个 报告 验证 块 映射 和 其 他 文件 系统 元 数据 。 收 到 心跳 包 说 明 该 DataNode 工 
作 正 常 。 如 果 DataNode 不 能 发 送 心跳 消息 , NameNode 会 标记 最 近 没 有 心跳 的 
DataNode 为 死机 ,不 会 发 给 它们 任何 新 的 1/O 请 求 。 这 样 一 来 ,任何 存储 在 死机 中 的 
DataNode 的 数据 将 不 再 有 效 。DataNode 的 死机 会 造成 一 些 数据 块 的 副本 数 下 降 并 低 于 
指定 值 ,NameNode 会 不 断 检 测 这 些 需 要 复制 的 数据 块 , 并 在 需要 的 时 候 重新 复制 。 引 发 
重新 复制 有 多 种 原因 : DataNode 不 可 用 数据 副本 的 损坏 .DataNode 上 的 磁盘 错误 或 者 
复制 因子 增 大 等 。 


5. 安全 模式 


在 系统 启动 的 时 候 ,NameNode 进入 一 个 特殊 的 状态 , 叫 作 安全 模式 。 安 全 模式 是 不 
发 生 文件 块 复制 的 ,也 就 是 这 时 不 会 出 现 数据 块 的 写 操 作 。NameNode 会 接收 来 自 各 个 
DataNode 的 心跳 和 块 报告 。 一 个 块 报告 包括 的 是 DataNode 向 NameNode 报告 数据 块 
的 列表 。 

每 一 个 块 都 有 一 个 特定 的 最 小 副本 数 。 当 NameNode 检查 的 这 个 块 已 经 大 于 最 小 
副本 数 时 就 被 认为 安全 地 复制 了 , 当 达 到 配置 的 块 安全 复制 比例 时 (可 配置 ) ,NameNode 
就 自动 退出 安全 模式 。 当 检测 到 副本 数 不 足 的 数据 块 时 ,该 块 会 被 复制 到 其 他 的 
DataNode, 以 达到 最 小 副本 数 。 


6. 数据 完整 性 检测 


多 种 原因 会 造成 从 DataNode 获取 的 数据 块 有 可 能 是 损坏 的 。HDFS 客户 端 软件 实 
现 了 HDFS 文件 内 容 的 校 验 和 (Checksum) 检 查 , 在 HDFS 文件 创建 时 ,会 计算 每 个 数据 
块 的 校 验 和 ,并 将 校 验 和 作为 一 个 单独 的 隐藏 文件 保存 在 命名 空间 下 。 当 客户 端 获取 文 
件 后 , 它 会 检查 从 DataNode 获得 的 数据 块 对 应 的 校 验 和 是 否 和 隐藏 文件 中 的 相同 ,如 果 
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不 同 ,客户 端 就 会 认为 数据 块 有 损坏 ,将 从 其 他 DataNode 获取 该 数据 块 的 副本 。 
7. 空间 回收 


当 用 户 或 应 用 程序 删除 某 个 文件 时 ,这 个 文件 并 没有 立刻 从 HDFS 中 删除 。 实 际 
上 ,HDFS 会 将 这 个 文件 重 命名 并 转移 到 /trash 目录 。 只 要 文件 还 在 /trash 目录 中 ,该 文 
件 就 可 以 被 迅速 恢复 。 文 件 在 /trash 中 保存 的 时 间 是 可 配置 的 , 当 超过 这 个 时 间 时 ， 
NameNode 就 会 将 该 文件 从 名 字 空 间 中 删除 。 删 除 文件 会 使 得 与 该 文件 相关 的 数据 块 被 
释放 ,但 是 从 用 户 执行 删除 操作 到 从 系统 中 看 到 剩余 空间 的 增加 可 能 会 有 一 个 时 间 延 迟 。 
只 要 被 删除 的 文件 还 在 /trash 目录 中 ,用 户 就 可 以 取消 删除 操作 。 当 用 户 想 取消 删除 操 
作 时 ,可 以 浏览 /trash 目录 找 回 该 文件 。/trash 目录 仅仅 保存 被 删除 文件 的 最 后 副本 。 
/trash 目录 与 其 他 目录 的 唯一 区 别 是 在 该 目录 上 ,HDFS 会 应 用 一 个 特殊 策略 来 自动 删 
除 文 件 。 目 前 的 默认 策略 是 删除 /trash 中 保留 时 间 超 过 6h 的 文件 。 这 个 策略 将 来 可 以 
通过 一 个 被 良好 定义 的 接口 配置 。 


8. 元 数据 磁盘 失效 


FsImage 和 Editlog 是 HDFS 的 核心 数据 结构 。 如 果 这 些 文件 损坏 了 ,整个 HDFS 
集群 都 将 失效 。 因 而 NameNode 可 以 配置 成 支持 维护 多 个 FsImage 和 Editlog 的 副本 。 
任何 对 FsImage 或 者 Editlog 的 修改 ,都 将 同步 到 它们 的 副本 上 。 这 种 多 副本 的 同步 操 
作 可 能 会 降低 NameNode 每 秒 处 理 的 名 字 空 间 事 务 的 数量 。 然 而 这 个 代价 是 可 以 接受 
的 ,因为 即使 HDFS 的 应 用 是 数据 密集 的 ,它们 也 非 元 数据 密集 。 当 NameNode 重启 的 
时 候 ,总 是 会 选取 最 新 的 完整 的 FsImage 和 Editlog 来 使 用 。 

NameNode 是 HDFS 集群 中 的 单 点 故障 (single point of failure) 所 在 。 如 果 
NameNode 机 器 故障 ,是 需要 手工 干预 的 。 目 前 ,自动 重启 或 在 另 一 台 机 器 上 做 
NameNode 故障 转移 的 功能 还 没有 实现 。 


9. 快照 


快照 支持 某 一 特定 时 刻 的 数据 的 复制 备份 。 利 用 快照 ,可 以 让 HDFS 在 数据 损坏 时 
恢复 到 过 去 一 个 已 知 正确 的 时 间 点 。HDFS 目前 还 不 支持 快照 功能 。 


6.4.4 文件 系统 元 数据 的 持久 化 


NameNode 存储 HDFS 的 元 数据 。 对 于 任何 对 文件 系统 元 数据 产生 修改 的 操作 ， 
NameNode 都 会 使 用 一 种 称 为 EditLog 的 事务 日 志 记录 下 来 。 例 如 ,在 HDFS 中 创建 一 
个 文件 ,NameNode 就 会 在 Editlog 中 插入 一 条 记录 来 表示 ;同样 ,修改 文件 的 副本 系数 
也 将 往 Editlog 插入 一 条 记录 。NameNode 在 本 地 操作 系统 的 文件 系统 中 存储 这 个 
Editlog。 整 个 文件 系统 的 名 字 空 间 , 包 括 数据 块 到 文件 的 映射 ,文件 的 属性 等 ,都 存储 在 
一 个 被 称 为 FsImage 的 文件 中 ,这 个 文件 也 是 放 在 NameNode 所 在 的 本 地 文件 系统 中 。 

NameNode 在 内 存 中 保存 着 整个 文件 系统 的 名 字 空 间 和 文件 数据 块 映 射 
(Blockmap) 的 映像 。 这 个 关键 的 元 数据 结构 设计 得 很 紧凑 ,因而 一 个 有 4GB 内 存 的 
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NameNode 足够 支撑 大 量 的 文件 和 目录 。 当 NameNode 启动 时 , 它 从 硬盘 中 读 取 Editlog 
和 FsImage, 将 所 有 Editlog 中 的 事务 作用 在 内 存 中 的 FsImage 上 ,并 将 这 个 新 版 本 的 
FsImage 从 内 存 中 保存 到 本 地 磁盘 上 ,然后 删除 旧 的 Editlog, 因 为 这 个 旧 的 Editlog 的 事 
务 都 已 经 作用 在 FsImage 上 了 。 这 个 过 程 称 为 一 个 检查 点 (checkpoint)。 在 当前 实现 
中 ,检查 点 只 发 生 在 NameNode 启动 时 ,在 不 久 的 将 来 将 实现 周期 性 的 检查 点 。 

DataNode 将 HDFS 数据 以 文件 的 形式 存储 在 本 地 的 文件 系统 中 , 它 并 不 知道 有 关 
HDFS 文件 的 信息 。 它 把 每 个 HDFS 数据 块 存储 在 本 地 文件 系统 的 一 个 单独 的 文件 中 。 
DataNode 并 不 在 同一 个 目录 创建 所 有 的 文件 ,实际 上 它 用 试探 的 方法 来 确定 每 个 目录 的 
最 佳 文件 数目 ,并 且 在 适当 的 时 候 创 建 子 目 录 。 在 同一 个 目录 中 创建 所 有 的 本 地 文件 并 
不 是 最 优 的 选择 ,因为 本 地 文件 系统 可 能 无 法 高 效 地 在 单个 目录 中 支持 大 量 的 文件 。 当 
一 个 DataNode 启动 时 , 它 会 扫描 本 地 文件 系统 ,产生 一 个 这 些 本 地 文件 对 应 的 所 有 
HDFS 数据 块 的 列表 ,然后 作为 报告 发 送 到 NameNode, 这 个 报告 就 是 块 状态 报告 
(Blocker port) 。 


6.4.5 数据 组 织 
1. 数据 块 


兼容 HDFS 的 应 用 都 是 处 理 大 数据 集合 的 。 这 些 应 用 都 是 写 数据 一 次 , 读 可 以 是 多 
次 ,并 且 读 的 速度 要 满足 流 式 读 。HDFS 支持 文件 的 write- once-read-many 语义 。 一 个 
典型 的 块 大 小 是 64MB, 因 而 ,文件 总 是 按照 64MB 切 分 成 chunk, 每 个 chunk 存储 于 不 
同 的 DataNode。 


2. 数据 产生 步骤 


某 个 客户 端 创建 文件 的 请 求 其 实 并 没有 立即 发 给 NameNode。 事 实 上 ,HDFS 客户 
端 会 将 文件 数据 缓存 到 本 地 的 一 个 临时 文件 。 应 用 的 写 被 透明 地 重 定向 到 这 个 临时 文 
件 。 当 这 个 临时 文件 累积 的 数据 超过 一 个 块 的 大 小 (默认 64MB) ,客户 端 才 会 联系 
NameNode。NameNode 将 文件 名 插入 文件 系统 的 层次 结构 中 ,并 且 分 配 一 个 数据 块 给 
它 ,然后 返回 DataNode 的 标识 符 和 目标 数据 块 给 客户 端 。 客 户 端 将 本 地 临时 文件 flush 
传输 到 指定 的 DataNode 上 。 当 文件 关闭 时 ,在 临时 文件 中 剩余 的 没有 flush 的 数据 也 会 
传输 到 指定 的 DataNode, 然 后 客户 端 告诉 NameNode 文件 已 经 关闭 。 此 时 ,NameNode 
才 将 文件 创建 操作 提交 到 持久 存储 。 如 果 NameNode 在 文件 关闭 前 出 现 故 障 了 ,该 文件 
将 丢失 。 

上 述 方法 是 对 HDFS 上 运行 的 目标 应 用 认真 考虑 的 结果 。 如 果 不 采用 客户 端 缓 存 ， 
网 络 速度 和 网 络 堵塞 会 对 吞吐 量 造成 比较 大 的 影响 。 


3. 流水 线 复制 


当 某 个 客户 端 向 HDFS 文件 写 数据 的 时 候 , 一 开始 是 写 入 本 地 临时 文件 ,假设 该 文 
件 的 replication 因子 设置 为 3, 那么 客户 端 会 从 NameNode 获取 一 张 DataNode 列表 来 存 
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放 副 本 。 然 后 客户 端 开 始 向 第 1 个 DataNode 传输 数据 ,第 1 个 DataNode 一 小 部 分 一 小 
部 分 (4KB) 地 接收 数据 ,将 每 个 部 分 写 人 本 地 仓库 ,并 且 同 时 传输 该 部 分 到 第 2 个 
DataNode 节点 。 第 2 个 DataNode 也 是 这 样 , 边 收 边 传 ,一 小 部 分 一 小 部 分 地 收 ,存储 在 
本 地 仓库 ,同时 传 给 第 3 个 DataNode, 第 3 个 DataNode 就 仅仅 是 接收 并 存储 了 。 这 就 是 
流水 线 式 的 复制 。 


6.5 分 布 式 数据 处 理 MapReduce 


MapReduce 是 由 谷歌 公司 提出 的 一 种 分 布 式 计 算 模 型 ,主要 用 于 搜索 领域 ,解决 海 
量 数据 的 计算 问题 。 它 是 开源 的 ,MapReduce 就 是 “任务 的 分 解 与 结果 的 汇总 ”。Map 把 
一 个 任务 分 解 成 多 个 任务 ,Reduce 把 分 解 后 多 任务 处 理 的 结果 汇总 起 来 ,得 到 最 终结 果 。 


6.5.1 逻辑 模型 


MapReduce 把 运行 在 大 规模 集群 上 的 并 行 计算 过 程 抽 象 为 两 个 函数 ，Map 和 
Reduce。Map( 映 射 ) 函 数 ,用 来 把 一 组 键 值 对 映射 成 一 组 新 的 键 值 对 ,指定 并 发 的 
Reduce( 化 简 ) 函 数 ,用 来 保证 所 有 映射 的 键 值 对 其 中 的 每 一 个 共享 相同 的 键 组 。 用 户 
只 需要 实现 map() 和 reduce() 两 个 函数 , 即 可 实现 分 布 式 计算 。 这 两 个 函数 的 形 参 是 
key 对 和 value 对 ,表示 函数 的 输入 信息 。 图 6-6 介绍 了 用 MapReduce 处 理 大 数据 集 的 
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提交 | Scheduler 
> 
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分 配 Map 任 务 。 、 分 配 Reduce 任 务 
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写 
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TaskTracker 
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' TaskTracker 
! 

TaskTracker 
! TaskTracker 
! 
| | 
输入 数据 Map 任 务 中 间 结 果 Reduce 任 务 输出 结果 


(key-value 对 ) 
图 6-6 MapReduce 处 理 大 数据 集 的 过 程 


在 映射 阶段 ,MapReduce 框架 将 用 户 输入 的 数据 分 割 为 M 个 片断 ,对 应 M 个 Map 
任务 。 每 一 个 Map 操作 的 输入 是 数据 片断 中 的 键 值 对 <K1,V1> 集 合 ,Map 操作 调用 用 
户 定义 的 Map 函数 ,输出 一 个 中 间 态 的 键 值 对 <K2,V2> 集 合 。 接 着 ,按照 中 间 态 的 K2 
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将 输出 的 数据 集 进行 排序 ,并 生成 一 个 新 的 <K2,list(V2)> 元 组 ,这 样 可 以 使 得 对 应 同一 
个 键 的 所 有 值 的 数据 都 在 一 起 。 然 后 ,按照 K2 的 范围 将 这 些 元 组 分 割 为 尺 个 片断 ,对 应 
Reduce 任务 的 数目 。 

在 化 简 阶 段 ,每 一 个 Reduce 操作 的 输入 是 一 个 <K2,list(V2) > 片断 ,Reduce 操作 调 
用 用 户 定义 的 Reduce 函数 ,生成 用 户 需 要 的 键 值 对 <K3,V3> 进 行 输出 。 

适合 用 MapReduce 处 理 的 任务 有 一 个 基本 要 求 : 待 处 理 的 数据 集 可 以 分 解 成 许多 
小 的 数据 集 ,而 且 每 一 个 小 数据 集 都 可 以 完全 并 行 地 进行 处 理 。 


6.5.2 实现 机 制 
1. 分 布 式 并 行 计算 


MapReduce 框架 是 由 JobTracker 和 TaskTracker 这 两 类 服务 调度 的 。JobTracker 
是 主 控 服务 ,只 有 一 个 ,负责 调度 和 管理 TaskTracker, 把 Map 任务 和 Reduce 任务 分 配 
给 空闲 的 TaskTracker, 让 这 些 任 务 并 行 运行 ,并 负责 监控 任务 的 运行 情况 。 
TaskTracker 是 从 服务 ,可 以 有 多 个 ,负责 执行 任务 。 如 果 某 个 TaskTracker 出 故障 了 ， 
JobTracker 会 把 其 负责 的 任务 分 配给 其 他 空闲 的 TaskTracker 重新 运行 。 


2. 本 地 计算 
通常 MapReduce 框架 和 分 布 式 文件 系统 是 运行 在 一 组 相同 的 节点 上 的 ,也 就 是 说 ， 


计算 节点 和 存储 节点 通常 在 一 起 。 这 种 配置 允许 框架 在 那些 存储 数据 的 节点 上 高 效 地 调 
度 任务 ,这 可 以 使 整个 集群 的 网 络 带 宽 被 非常 高 效 地 利用 。 
3. 任务 粒度 


对 于 小 数据 集 , 一 般 小 于 或 等 于 HDFS 中 数据 块 的 大 小 ,这 使 得 一 个 小 数据 集 位 于 
一 台 计算 机 上 ,有 利于 计算 的 数据 本 地 性 。 一 个 小 数据 集 启动 一 个 MapReduce 任务 ,M 
个 Map 任务 可 以 在 NN 台 计 算 机 上 并 行 运行 ,用 户 可 以 指定 Reduce 任务 的 数量 。 

4. Combine 

Combine( 连 接 ) 将 Map 任务 输出 的 中 间 结 果 集 中 由 相同 key 值 的 多 个 <key ,value> 

组 合成 一 个 <key,list(value)> 对 。Combine 在 执行 完 Map 函数 后 紧 接 着 执行 ,很 多 情况 
下 可 以 直接 使 用 Reduce 函数 ,Combine 能 减少 中 间 结 果 的 数量 ,从 而 减少 数据 传输 中 的 
网 络 流 量 。 

5.Partion( 分 区 ) 


Combine 之 后 ,把 产生 的 中 间 结 果 按 key 的 范围 划分 成 R 份 (R 是 预先 定义 的 
Reduce 任务 的 个 数 ) 。 划 分 常 采用 Hash 函数 完成 ,hash(key) mod R, 这 样 保证 一 定 范 
围 内 的 key 值 ,一 定 由 某 一 个 Reduce 任务 完成 ,简化 了 Reduce 过 程 。 
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6. 读 取 中 间 结 果 


Map 任务 的 中 间 结 果 在 做 完 Combine 和 PAD 之 后 ,会 以 文件 形式 保存 在 本 地 磁盘 。 
中 间 结 果 的 位 置 会 通知 给 主 控 JobTracker,JobTracker 再 通知 Reduce 任务 到 哪 一 个 
DataNode 上 去 取 中 间 结 果 。 注 意 所 有 的 Map 任务 产生 中 间 结 果 均 按 其 key 用 同一 个 
Hash 函数 划分 成 了 R 份 ,R 个 Reduce 任务 各 自负 责 一 段 key 区 间 。 每 个 Reduce 需要 
向 多 个 Map 任务 节点 取得 落 在 其 负责 的 key 区 间 内 的 中 间 结 果 ,然后 执行 Reduce 函数 ， 
形成 一 个 最 终 的 结果 文件 。 


7. 任务 管道 


在 某 些 情况 下 ,Reduce 任务 的 输出 结果 并 非 所 需要 的 最 终结 果 , 这 时 可 以 将 这 些 输 
出 结果 作为 另 一 个 计算 任务 的 输入 ,开始 另 一 个 MapReduce 计算 任务 。 


6.6 分 布 式 结构 化 数据 表 HBase 


HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 , 它 不 同 于 一 般 的 关系 数据 库 , 是 一 个 
适合 于 非 结构 化 数据 存储 的 数据 库 。HBase 是 Apache 的 Hadoop 项 目 中 的 一 个 子 项 目 ， 
HBase 依托 于 Hadoop 的 HDFS 作为 最 基本 的 存储 单元 ,通过 使 用 Hadoop 的 DFS 工具 
就 可 以 看 到 这 些 数据 存储 文件 夹 的 结构 ,还 可 以 通过 Map/Reduce 的 框架 (算法 ) 对 
HBase 进行 操作 。 另 一 个 不 同 之 处 是 HBase 是 基于 列 的 而 不 是 基于 行 的 模式 。 


6.6.1 逻辑 模型 


HBase 使 用 和 BigTable 非常 相同 的 数据 模型 ,不仅 数据 存放 逮 辑 模型 相同 , 表 也 类 
似 。 用 户 存储 数据 行 在 一 个 表 里 , 表 格 里 存储 一 系列 的 数据 行 ,每 行 包含 一 个 可 排序 的 行 
关键 字 、 一 个 可 选 的 时 间 戳 及 一 些 可 能 有 数据 的 列 (稀疏 )。 数 据 行 有 3 种 基本 类 型 的 定 
义 : 行 关键 字 (Row Key) 时间 截 (Time Stamp) 和 列 (Column)。 

a 行 关 键 字 是 数据 行 在 表 中 的 唯一 标识 。 行 的 一 次 读 写 是 原子 操作 (不 论 一 次 读 写 
多 少 列 ) 。 

@ 时 间 截 是 每 次 数据 操作 对 应 关联 的 时 间 戳 。 

@ 列 定义 为 : <family> :<label>(< 列 族 > :< 标签 >) ,通过 这 两 部 分 可 以 唯一 地 指定 
一 个 数据 的 存储 列 , 对 列 族 的 定义 和 修改 需要 管理 员 权限 ,而 标签 可 以 在 任何 时 候 添 加 。 
HBase 在 磁盘 上 按照 列 族 储存 数据 ,一 个 列 族 里 的 所 有 项 应 该 有 相同 的 读 写 方式 。 写 操 
作 是 行 锁定 的 ,不 能 一 次 锁定 多 行 。 

HBase 的 更 新 操作 有 时 间 戳 ,对 每 个 数据 单元 只 存储 指定 个 数 的 最 新 版 本 ,客户 端 
可 以 查询 某 个 时 间 后 的 最 新 数据 ,或 者 一 次 得 到 数据 单元 的 所 有 版 本 。 表 6-1 是 有 关 
www. cnn. com 网 站 数据 存放 的 逻辑 视图 。 表 中 仅 有 一 行 数据 , 行 的 唯一 标识 为 com. 
cnn. www, 它 采用 了 倒 排 的 方式 : 对 这 行 数据 的 每 一 次 逻辑 修改 都 有 一 个 时 间 戳 关联 对 


应 ;共有 4 个 列 定义 ;< contents >、< anchor: cnnsi. com >、< anchor: my. look. ca>、 
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<mime:>。 每 一 行 就 相当 于 传统 数据 库 中 的 一 个 表 , 行 关键 字 是 表 名 ,这 个 表 根 据 列 的 
不 同 划分 ,每 次 操作 都 会 有 时 间 戳 关联 到 具体 操作 的 行 。 
表 6-1 数据 存放 逻辑 视图 


行 关键 字 时 间 惟 | 列 "contents:" 列 "anchor:" 列 "mime:" 
t9 "anchor: cnnsi. com" "CNN" 
t8 "anchor:my. look. ca” | "CNN. com" 
"com. cnn. www" t6 "<html>..." "text/html" 
15 "<html>..." 
t3 "<html>..." 
6.6.2 物理 模型 


HBase 是 按照 列 存储 的 稀 朴 行 / 列 和 矩阵。 物理 模型 实际 上 就 是 把 概念 模型 中 的 一 个 
行进 行 分 割 ,并 按照 列 族 存储 。 在 物理 上 的 存储 方式 如 表 6-2 所 示 。 
表 6-2 在 物理 上 的 存储 方式 


行 关键 字 时 间 戳 列 "contents:" 
t5 "<html>...” 
"com. cnn. www" ta "<html>..." 
t3 "<html>..." 
行 关键 字 时 间 戳 列 "anchor:" 
, t8 "anchor: cnnsi. com" "CNN" 
com. cnn. www 
机 "anchor:my. look. ca” "CNN. com" 
行 关 键 字 时 间 惟 列 "mime:" 
"com. cnn. www” t6 "text/html" 


在 表 6-2 中 , 空 的 单元 格 不 存储 。 因 此 查询 时 间 戳 为 t7 的 contents: 将 返回 空 值 , 查 
询 时 间 戳 为 t8 的 anchor: 值 为 look. ca 的 项 也 返回 空 值 。 如 果 没 有 指明 时 间 戳 ,那么 应 
该 返回 指定 列 的 最 新 数据 ,并 且 最 新 的 值 在 表格 里 也 是 最 先 找到 的 ,因为 它们 是 按照 时 间 
排序 的 。 所 以 ,如 果 查 询 contents: 而 不 指明 时 间 戳 ,将 返回 时 间 戳 t5 的 数据 ,查询 
anchor: 的 look. ca 而 不 指明 时 间 戳 ,将 返回 时 间 戳 t7 的 数据 。 这 种 存储 结构 还 有 一 个 优 
势 就 是 可 以 随时 向 表 中 的 任何 一 个 列 族 添加 新 列 ,而 不 需要 事先 说 明 。 


6.6.3 子 表 服 务 器 


在 物理 上 ,表格 分 为 多 个 子 表 (HRegion) ,每 个 子 表 存储 在 适当 的 地 方 。 物 理 上 所 有 
数据 都 存储 在 HDFS 上 ,由 一 些 子 表 服 务 器 来 提供 数据 服务 ,一 般 一 台 计 算 机 只 运行 一 
个 子 表 服 务 器 程序 。 某 一 时 刻 一 个 子 表 服 务 器 只 管理 一 个 子 表 。 
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当 客 户 端 进行 更 新 操作 时 ,首先 连接 相关 的 子 表 服 务 器 ,之 后 向 子 表 提交 变更 。 提 交 
的 数据 被 添加 到 子 表 的 HMemcache 和 子 表 服务 器 的 HLog。 作 为 缓存 服务 器 
HMemcache 在 内 存 中 存储 最 近 的 更 新 操作 。HLog 是 磁盘 上 的 日 志文 件 , 记 录 所 有 的 更 
新 操作 。 客 户 端的 commit() 方 法 调用 直到 更 新 操作 写 和 人 HLog 文件 后 才 返 回 。 

在 提供 服务 时 , 子 表 首先 查询 缓存 HMemcache。 若 没有 ,再 查找 磁盘 上 的 HStore。 
子 表 中 的 每 个 列 族 都 对 应 着 一 个 HStore, 一 个 HStore 又 包括 了 若干 个 磁盘 上 的 
HStoreFile 文件 。 每 个 HStoreFile 的 结构 都 类 似 B 树 ,可 以 快速 地 查找 。 

HRegion. flushcache() 定 期 被 调用 ,把 HMemcache 中 的 内 容 写 到 磁盘 上 HStore 文 
件 里 ,这 样 给 每 个 HStore 都 增加 了 一 个 新 的 HStoreFile。 之 后 清空 HMemcache 缓存 ， 
再 在 HLog 文件 里 加 入 一 个 特殊 的 标记 ,表示 刷新 了 HMemcache。 

在 启动 时 ,每 个 子 表 检查 最 后 的 flushcache() 方 法 调用 之 后 是 否 还 有 写 操作 在 HLog 
文件 里 未 应 用 。 如 果 没 有 , 则 子 表 里 的 全 部 数据 就 是 磁盘 上 HStore 文件 内 的 数据 ;如 果 
有 , 则 子 表 就 把 HLog 文件 里 的 更 新 操作 重新 应 用 一 遍 , 写 人 到 HMemcache 里 ,再 调用 
flushcache()。 最 后 , 子 表 会 删除 HLog 文件 并 开始 数据 服务 。 

所 以 ,调用 flushcache() 方 法 越 少 ,工作 量 就 越 少 ,而 HMemcache 就 要 占用 更 多 的 内 
存 空 间 ,启动 时 HLog 文件 也 需要 更 多 的 时 间 来 恢复 数据 。 而 调用 flushcache() 越 频繁 ， 
HMemcache 占用 内 存 就 越 少 , HLog 文件 恢复 数据 时 也 就 越 快 ,但 是 也 需要 考虑 
flushcache() 资 源 消 耗 。 

方法 flushcache() 的 调用 会 给 每 个 HStore 增加 一 个 HStoreFile。 要 从 一 个 HStore 
里 读数 据 , 可 能 需要 访问 它 的 所 有 HStoreFile, 这 是 耗 时 的 ,因此 需要 定时 把 多 个 
HStoreFile 合并 成 一 个 HStoreFile, 这 是 通过 调用 HStore. compact() 方 法 来 实现 的 。 

两 个 子 表 都 要 处 于 “下 线 ” 状 态 时 ,调用 HRegion. closeAndMerge() 可 以 把 两 个 子 表 
合并 成 一 个 。 当 一 个 子 表 大 到 超过 某 个 指定 值 时 , 子 表 服 务 器 就 需要 调用 HRegion. 
closeAndSplit() ,将 它 分 割 为 两 个 新 的 子 表 。 新 子 表 被 上 报 给 主 服务 器 , 主 服 务 器 来 决定 
哪个 子 表 服 务 器 接管 哪个 子 表 。 分 割 过 程 很 快 ,这 是 由 于 新 子 表 只 维护 到 了 旧 子 表 的 
HStoreFile 的 引用 ,一 个 引用 HStoreFile 的 前 半 部 分 , 另 一 个 引用 后 半 部 分 。 当 引用 建 
立 完毕 , 旧 子 表 被 标记 为 “下 线 ? 并 继续 保存 ,直到 新 子 表 的 紧缩 操作 将 对 旧 子 表 的 引用 全 
部 清除 掉 时 , 旧 子 表 才 被 删除 。 


6.6.4 主 服务 器 


HBase 只 使 用 了 一 个 核心 来 管理 所 有 子 表 服 务 器 即 主 服 务 器 。 每 个 子 表 服 务 器 都 
只 与 唯一 的 主 服务 器 联系 , 主 服 务 器 告诉 每 个 子 表 服 务 器 应 该 装载 哪些 子 表 并 进行 
服务 。 

主 服 务 器 维护 子 表 服 务 器 在 任何 时 刻 的 活跃 标记 。 当 一 个 新 的 子 表 服务 器 向 主 服务 
器 注册 时 , 主 服 务 器 让 新 的 子 表 服 务 器 装载 若干 个 子 表 , 也 可 以 不 装载 。 如 果 主 服 务 器 和 
子 表 服 务 器 间 的 连接 超时 时 ,那么 子 表 服 务 器 将 “ 杀 死 "自己 ,之 后 以 一 个 空白 状态 重启 ， 
主 服 务 器 假定 子 表 服 务 器 已 “ 死 ”, 并 将 其 上 的 子 表 标记 为 “未 分 配 ”, 同 时 尝试 把 它们 分 配 
给 其 他 子 表 服务 器 。 
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与 Google 的 BigTable 不 同 的 是 ,BigTable 使 用 分 布 式 锁 服 务 Chubby 保证 了 子 表 
服务 器 访问 子 表 操 作 的 原子 性 。 子 表 服 务 器 即使 和 主 服务 器 的 连接 断 掉 了 ,还 可 以 继续 
服务 。 它 们 都 依赖 于 一 个 核心 的 网 络 结构 (HMaster 或 Chubby) ,只 要 核心 还 在 运行 , 整 
个 系统 就 能 运行 ,而 HBase 不 具备 这 样 的 Chubby。 

每 个 子 表 都 是 由 它 所 属 的 表格 名 字 、 首 关键 字 和 region ID 来 标识 。 这 样 , 子 表 标识 符 
最 终 的 形式 就 是 : 表 名 十 首 关键 字 十 region ID。 例 如 , 表 名 字 是 hbaserepository, 首 关键 字 
是 w-nk5YNZ8TBb2uWFIRJo7V 二 二 ,region ID 是 6890601455914043877 ,于 是 它 的 唯一 标 
识 符 就 是 : hbaserepository, w-nk5YNZ8TBb2uWFIRJo7V 二 二 ,6890601455914043877。 


6.6.5 元 数据 表 


子 表 的 元 数据 就 存储 在 另 一 个 子 表 里 , 子 表 的 唯一 标识 符 可 以 作为 子 表 的 行 标签 , 映 
射 子 表 标 识 符 到 物理 子 表 服 务 器 位 置 的 表格 为 元 数据 表 。 

元 数据 表 可 能 增长 ,并 且 可 以 分 裂 成 多 个 子 表 。 为 了 定位 元 数据 表 的 各 个 部 分 ,把 所 
有 元 数据 子 表 的 元 数据 保存 在 根子 表 (ROOT Table) 里。 在 启动 时 , 主 服务 器 立即 扫描 
根子 表 ( 因 为 只 有 一 个 根子 表 , 所 以 它 的 名 字 是 硬 编码 的 ) ,这 样 可 能 需要 等 待 根子 表 分 配 
到 某 个 子 表 服务 器 上 。 一 旦 根子 表 可 用 了 , 主 服务 器 扫描 它 得 到 所 有 的 元 数据 子 表 位 置 ， 
然后 主 服务 器 扫描 元 数据 表 。 同 样 , 主 服务 器 可 能 要 等 待 所 有 的 元 数据 子 表 都 被 分 配 到 
子 表 服 务 器 上 。 最 后 ,当主 服务 器 扫描 完了 元 数据 子 表 , 它 就 知道 了 所 有 子 表 的 位 置 , 然 
后 把 这 些 子 表 分 配 到 子 表 服 务 器 上 去 。 


6.7 ”Hadoop 安装 


Hadoop 部 署 模式 有 本 地 模式 、 伪 分 布 模式 、 完 全 分 布 式 模式 .HA 完全 分 布 式 模式 。 
本 地 模式 是 最 简单 的 模式 ,所 有 模块 都 运行 于 一 个 JVM 进程 中 ,使 用 本 地 文件 系统 ,而 
不 是 HDFS, 本 地 模式 主要 是 用 于 本 地 开发 过 程 中 的 运行 调试 。 下 载 Hadoop 安装 包 后 
不 用 任何 设置 ,默认 的 就 是 本 地 模式 。 


6.7.1 Hadoop 环境 安装 配置 
1. 创建 Hadoop 用 户 


创建 一 个 名 为 hadoop 的 用 户 , 使 用 /bin/bash 作为 SHELL ,为 用 户 设置 密码 后 
登录 。 


[rooteabcl ~ ]#useradd -m hadoop -3 /bin/bash 
[rooteabcl ~ ]#passwd hadoop 


2. 配置 SSH 无 密码 登录 


集群 . 单 节点 模式 都 需要 用 到 SSH 登录 ,一 般 情况 下 ,系统 默认 已 安装 了 SSH client 
和 SSH server, 执 行 如 下 命令 进行 检验 。 
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[hadoopeabcl ~ ]$rpm -qa | grep ssh 
openssh- clients- 5.3p1- 123.e16 9.x86 64 
libssh2- 1.4.2- 2.e16 7.1.x86 64 
openssh- askpass- 5.3p1- 123.e16 9.x86 64 
openssh- server- 5.3pl- 123.e16 9.x86 64 
openssh- 5.3p1- 123.e16 9.x86 64 


测试 一 下 SSH 是 否 可 用 : 

[hadoop@abcl ~ ]$ssh localhost 

此 时 会 有 如 下 提示 (SSH 首次 登录 提示 ) ,输入 yes。 然 后 按 提示 输入 密码 ,这 样 就 登 
录 到 本 机 了 。 

The authenticity of host 'localhost (::1)" can't be established. 

RSA key fingerprint is 06:b0:2a:3b:d4:£6:2b:7a:83:81:58:6e:be:ff:cb:0e. 

Are you sure you want to continue connecting (yes/no)? yes 

Warning: Permanently added 'localhost' (RSA) to the list of known hosts. 

hadoop@localhost's password: 

这 样 是 需要 每 次 登录 都 输入 密码 的 , 现 将 其 配置 成 无 密码 登录 ,具体 配置 方法 如 下 。 

首先 输入 exit 退出 刚才 的 SSH , 回 到 原先 的 终端 窗口 ,然后 利用 ssh-keygen 生成 密 
钥 ,并 将 密 钥 加 入 到 授权 中 : 


[hadoopeabcl ~ ]$exit 
logout 

Connection to localhost closed. 

[hadoopeabcl ~ ]$cd ~ /.ssh/ 

[hadoopeabcl .ssh]$ssh- keygen -t rsa // 会 有 提示 , 按 Enter 键 即 可 
[hadoopeabcl .ssh]$cat id rsa.pub >> authorized keys  // 加 入 授权 

[hadoopeabcl .ssh]$chmod 600 ./authorized keys 


此 时 再 用 ssh localhost 命令 ,无 须 输 入 密码 就 可 以 直接 登录 了 。 
[hadoopeabcl .ssh]$ssh localhost 


Last login: Sun May 6 18:00:08 2018 from localhost 


3. 安装 JDK 

通过 yum 安装 JDK。 

[hadoop@abcl ~ ]$sudo yum install java- 1.7.0- openjdk java- 1.7.0- openjdk- devel 
查看 openjdk 默认 安装 位 置 。 


[hadoopeabcl ~ ]$rpm -ql java- 1.7.0- openjdk- devel | grep '/bin/javac' 
/usr/lib/jvm/java-1.7.0- openjdk-1.7.0.181.x86 64/bin/javac 


这 里 输出 一 个 路 径 , 除 去 路 径 末 尾 的 /bin/javac, 剩 下 的 就 是 正确 的 路 径 。 即 openjdk 
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默认 安装 位 置 为 /usr/lib/jvm/java-1.7.0-openjdk-1.7.0.181. x86_64。 
配置 JAVA_HOME 环境 变量 。 


[hadoopeabcl ~ ]$vi ~ /.bashrc // 在 文件 最 后 添加 指向 openjdk 的 安装 位 置 
export JAVA HOME= /usr/lib/jvm/java- 1.7.0- openjdk-1.7.0.181.x86 64 

export PATH= $JAVA HOME/bin:$PATH:$HOME/bin 

[hadoopeabcl ~ ]$source ~ /.bashrc // 执 行 生 效 


检验 是 否 设置 正确 。 


[hadoopeabcl ~ ]$echo $JAVA HOME 

/usr/lib/jvm/java- 1.7.0- openjdk- 1.7.0.181.x86 64 

[hadoop@abcl ~ ]$java -version 

java version "1.7.0 181" 

OpenJDK Runtime Environment (rhel- 2.6.14.1.e16 9-x86 64 ul81-b00) 
OpenJDK 64- Bit Server VM (build 24.181- b00, mixed mode) 
[hadoopeabcl ~ ]$$JAVA HOME/bin/java - version 

java version "1.7.0 181" 

OpenJDK Runtime Environment (rhel- 2.6.14.1.e16 9-x86 64 ul81-b00) 
OpenJDK 64- Bit Server VM (build 24.181- b00, mixed mode) 


上 述 命令 java -version 和 $JAVA_HOME/bin/java -version 都 会 输出 java 的 版 本 
\, 且 输出 结果 相同 ,表示 设置 正确 。 
这 样 ,Hadoop 所 需 的 Java 运行 环境 就 安装 好 了 。 


4. 安装 Hadoop 


解压 Hadoop 安装 包 。 
将 目录 /home/hadoop/Downloads 下 的 Hadoop 安装 包 解 压 到 /usr/local/ 中 。 


[hadoop@abcl ~ ]$sudo tar - zxf ~ /Downloads/hadoop- 2.9.0.tar.gz -C /usr/local 
[hadoopeabcl local]$cd /usr/local 

[hadoopeabcl local]$sudo mv ./hadoop-2.9.0/ ./hadoop ”// 将 目录 名 改 为 hadoop 
[hadoop@abcl local]$sudo chown -R hadoop:hadocp ./hadoop ”// 修 改 文件 权限 


Hadoop 解压 后 即 可 使 用 。 检 查 Hadoop 是 否 可 用 ,成 功 则 会 显示 Hadoop 版 本 信息 。 


[hadoopeabcl locall]$cd /usr/local/hadoop 

[hadoopeabcl hadoop]$./bin/hadoop version 

Hadoop 2.9.0 

Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -上 
756ebc8394e473ac25feac 

05fa 

493f6d612e6c50 

Compiled by arsuresh on 2017- 11- 13T23:15Z 

Compiled with protoc 2.5.0 

From source with checksum 0a76a9a32a5257331741f£8d5932f183 
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Thiscommand was run using /usr/local/hadocp/share/hadoop/common/hadoop- common 


-2.9.0.jar 


6.7.2 Hadoop 运行 模式 


Hadoop 支持 3 种 运行 模式 : 非 分 布 式 模式 、 伪 分 布 式 模式 和 完全 分 布 式 模式 。 

非 分 布 式 模式 ,也 可 以 称 为 单机 模式 ,是 Hadoop 的 默认 模式 。 这 种 模式 在 一 台 机 器 
上 运行 ,无 需 进 行 其 他 配置 ,没有 分 布 式 文件 系统 ,而 是 直接 读 写 本 地 操作 系统 的 文件 系 
统 。 非 分 布 式 模式 用 独立 的 Java 进程 ,方便 进行 调试 。 

伪 分 布 式 模式 ,也 是 在 一 台 机 器 上 运行 ,但 用 不 同 的 Java 进程 模仿 分 布 式 运行 中 的 
各 类 节点 (NameNode, DataNode,JobTracker, TaskTracker, SecondaryNameNode)。 在 
一 台 机 器 上 ,Hadoop 进程 以 分 离 的 Java 进程 来 运行 ,节点 既 作 为 NameNode 也 作为 
DataNode, 同 时 读 取 的 是 HDFS 中 的 文件 。 由 于 没有 所 谓 的 在 多 台 机 器 上 进行 真正 的 分 
布 式 计算 , 故 称 为 伪 分 布 式 ”。 

完全 分 布 式 模式 ,是 真正 的 分 布 式 ,是 由 3 个 及 以 上 的 实体 机 或 者 虚拟 机 组 成 的 
集群 。 

本 文 以 伪 分 布 式 模式 安装 为 例 ,配置 如 下 。 

1. 设置 Hadoop 环境 变量 


[hadoop@abcl ~ ]$vi ~ /.bashrc 

export HADOOP HOME= /usr/local/hadoop 

export HADOOP_INSTALL= SHADOOP_HOME 

export HADOOP_MAPRED HOME= SHADOOP_HOME 

export HARDOOP_COMMON_HOME= SHADOOP_HOME 

export HRDOOP_HDFS_HOME= SHADOOP_HOME 

export YRRN_HOME= $HADOOP_HOME 

export HADOOP COMMON LIB NATIVE DIR= $HADOOP HOME/lib/native 
export PATH= $PATH: $HADOOP_HOME/sbin:$HADOOP_HOME/bin 
[hadoop@abcl ~ ]$source ~ /.bashrc 


2. 修改 配置 文件 core-site. xml 


[hadoop@abcl hadoop] $vi core- site.xml 
<configuration> 
<property> 
<name> hadoop.tmp.dir< /name> 
<value> file:/usr/local/hadoop/tmp< /value> 
< description> Abase for other temporary directories.< /description> 
< /property> 
<property> 
<name> fs.defaultFS< /name> 
<value> hdfs://localhost:9000< /value> 
< /property> 
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</configuration> 


3. 修改 配置 文件 hdfs-site. xml 


[hadoopeabcl hadoop] $vi hdfs- site.xml 
<configuration> 
<property> 
<name> dfs.replication< /name> 
<value> 1< /value> 
< /property> 
<property> 
<name> dfs.namenode.name.dir< /name> 
<value> file:/usr/local/hadoop/tmp/dfs/name< /value> 
< /property> 
<property> 
<name> dfs.datanode.data.dir< /name> 
<value> file:/usr/local/hadoop/tmp/dfs/data< /value> 
< /property> 
</configuration> 


4. 格式 化 NameNode 


[hadoop@abcl hadoop]$./bin/hdfs namenode - format 


5. 开启 NameNode 和 DataNode 守护 进程 


[hadoopeabcl hadoop]$./sbin/start- dfs.sh 
启动 完成 后 ,可 以 通过 命令 Jps 来 判断 是 否 成 功 启动 。 


[hadoopeabcl hadoop]5jps 
15324 DataNode 

15272 SecondaryNameNode 

15564 Jps 

14974 NameNode 

从 结果 可 以 看 出 ,进程 NameNode、DataNode 和 SecondaryNameNode 已 启动 ,配置 


安装 成 功 。 

6. 在 浏览 器 访问 Hadoop 

访问 Hadoop 的 默认 端口 号 为 50070。 在 浏览 器 中 输入 网 址 localhost:50070, 可 以 获 
取 浏 览 器 Hadoop 服务 ,如 图 6-7 所 示 。 


6.8 Hive 数据 仓库 


让 


Hive 是 基于 Hadoop 的 一 个 数据 仓库 基础 工具 ,用 来 处 理 结构 化 数据 。 它 提供 了 和 
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Overview '\ocalhost:9000' (active) 


Tue May 08 00:17:31 -0700 2018 


2.9.0,r56ebc8394e473ac25feac05fa493f6d612e6c50 


Mon Nov 13 15:15:00 -0800 2017 by arsuresh from branch-2.9.0 
CID-51bf3801-6334 4Dc-ae42-e85110029c6e 


| P298004738-192.168.233.128-1525763457606 
图 6-7 浏览 器 Hadoop 服务 


富 的 SQL 查询 方式 来 分 析 存 储 在 Hadoop 分 布 式 文件 系统 中 的 数据 ,可 以 将 结构 化 的 数 
据 文件 映射 为 一 张 数据 库 表 ,并 提供 完整 的 SQL 查询 功能 ,可 以 将 SQL 语句 转换 为 
MapReduce 任务 来 运行 ,通过 自己 的 SQL 去 查询 分 析 需 要 的 内 容 , 这 套 SQL 简称 为 
Hive SQL, 使 不 熟悉 MapReduce 的 用 户 方便 地 利用 SQL 语言 查询 、 汇 总 、 分 析 数 据 。 其 
优点 是 学 习 成 本 低 , 可 以 通过 类 SQL 语句 快速 实现 简单 的 MapReduce 统计 ,不 必 开 发 专 
门 的 MapReduce 应 用 ,十 分 适合 数据 仓库 的 统计 分 析 。 


6.8.1 Hive 工作 原理 


MapReduce 开发 人 员 可 以 把 自己 写 的 Mapper 和 Reducer 作为 插件 支持 Hive 做 更 
复杂 的 数据 分 析 。 它 与 关系 数据 库 的 SQL 略 有 不 同 , 但 支持 了 绝 大 多 数 的 语句 ,如 
DDL、DML 以 及 常见 的 聚合 函数 、 连 接 查 询 、 条 件 查 询 。 

Hive 不 适合 用 于 联机 (online) 事 务 处 理 , 也 不 提供 实时 查询 功能 。 它 最 适合 应 用 在 
基于 大 量 不 可 变数 据 的 批 处 理 作业 。Hive 的 特点 是 可 伸缩 (在 Hadoop 的 集群 上 动态 地 
添加 设备 ) ,可 扩展 ,容错 ,输入 格式 的 松散 耦合 。Hive 的 入 口 是 DRIVER ,执行 的 SQL 
语句 首先 要 提交 到 DRIVER 驱动 .然后 调用 COMPILER 解释 驱动 ,最 终 解释 成 
MapReduce 任务 执行 ,最 后 将 结果 返回 。 


6.8.2 Hive 数据 类 型 


Hive 提供 了 基本 数据 类 型 和 复杂 数据 类 型 ,复杂 数据 类 型 是 Java 语言 所 不 具有 的 。 
本 节 介 绍 Hive 的 两 种 数据 类 型 以 及 数据 类 型 之 间 的 转换 。 


1. 基本 数据 类 型 


Hive 支持 原子 数据 类 型 和 复杂 数据 类 型 ,原子 数据 类 型 包括 数据 值 \ 布 尔 类 型 和 字 
符 串 类 型 ,复杂 的 类 型 包括 数组 、 映 射 和 结构 ,具体 描述 如 表 6-3 所 示 。 
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表 6-3 Hive 的 数据 类 型 


类 型 类 型 描 述 示 例 
TINYINT 1 字 节 1 
SMALLINT | 2 字 节 1 
INT 4 字 节 1 
BIGINT 8 字 节 1 
基本 数据 类 型 
FLOAT 4 字 节 Eg 
DOUBLE 8 字 节 1.0 
BOOLEAN true ,flase true 
STRING 字符 串 ‘abc', "abc” 
ARRAY 一 组 有 序 字段 ,字段 的 类 型 必须 相同 array(1,2) 
一 组 无 序 的 键 / 值 对 。 键 的 类 型 必须 是 原子 
复杂 数据 类 型 | MAP 的 , 值 可 以 是 任何 类 型 的 。 同 一 个 映射 的 键 | mapG'a','b',1,2) 
的 类 型 必须 相同 , 值 的 类 型 也 必须 相同 
STRUCT 一 组 命名 的 字段 ,字段 的 类 型 可 以 不 同 struct('a',1,1.0) 


BINARY、TIMESTAMP、UNION( 复 杂 数 据 类 型 ) 在 Hive0. 8. 0 以 上 才 可 以 使 用 。 
数组 ,映射 \ 结 构 的 文字 形式 可 以 通过 函数 array()、map()、struct() 得 到 ,3 个 函数 都 是 
Hive 的 内 姓 函 数 。 从 Hive0. 6.0 开始 , 列 命名 为 coll .col2 .col3 等 。 


2. 复杂 类 型 


Hive 有 ARRAY、MAP 和 STRUCT 3 种 复杂 数据 类 型 。ARRAY 和 MAP 与 Java 
中 的 ARRAY 和 MAP 类 似 ,而 STRUCT 与 C 语言 中 的 STRUCT 类 似 , 它 封装 了 一 个 
命名 的 字段 集合 ,复杂 数据 类 型 允许 任意 层次 的 谤 套 。 

复杂 数据 类 型 的 声明 必须 使 用 尖 括 号 指明 其 中 数据 字段 的 类 型 。 定 义 3 列 ,每 列 对 
应 一 种 复杂 的 数据 类 型 ,如 下 所 示 。 

CREATE TABLE complex( 

Coll ARRAY< INT>, 
Col2 MAP< STRING, INT>, 
Col3 STRUCT< a:STRING, b:INT, c:DOUBLE> 

); 


3. 类 型 转化 


Hive 的 原子 数据 类 型 是 可 以 进行 隐 式 类 型 转换 的 ,类 似 于 Java 的 类 型 转换 ,如 某 表 
达 式 使 用 INT 类 型 ,TINYINT 会 自动 转换 为 INT 类 型 ,但 是 Hive 不 会 进行 反 向 转化 。 
例如 , 某 表 达 式 使 用 TINYINT 类 型 ,TIN 不 会 自动 转换 为 TINYINT 类 型 , 它 会 返回 错 
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误 , 除 非 使 用 CAST 操作 。 

隐 式 类 型 转换 规则 如 下 。 

(1) 任何 整数 类 型 都 可 以 隐 式 地 转换 为 一 个 范围 更 广 的 类 型 ,如 TINYINT 可 以 转 
换 成 INT,INT 可 以 转换 成 BIGINT。 

(2) 所 有 整数 类 型 .FLOAT 和 String 类 型 都 可 以 隐 式 地 转换 成 DOUBLE。 

(3) TINYINT SMALLINT INT 都 可 以 转换 为 FLOAT。 

(4) BOOLEAN 类 型 不 可 转换 为 任何 其 他 的 类 型 。 

可 以 使 用 CAST 操作 显 式 地 进行 数据 类 型 转换 ,如 CAST('1' AS INT) 将 把 字符 串 
1 转换 成 整数 1; 如 果 强 制 类 型 转换 失败 ,如 执行 CAST('X' AS INT) ,表达 式 返 回 空 值 
NULL。 


6.8.3 Hive 的 特点 


Hive 与 关系 数据 库 的 比较 如 表 6-4 所 示 。 
表 6-4 Hive 与 关系 数据 库 的 比较 


Hive RDBMS 


查询 语言 HQL SQL 

数据 存储 HDFS Raw Device or Local FS 
索引 无 有 

执行 MapReduce Excutor 

执行 延迟 高 低 

处 理 数据 规模 大 小 


1. 查询 语 


SQL 被 广泛 应 用 在 数据 仓库 中 ,专门 针对 Hive 的 特性 定义 了 简单 的 类 SQL 查询 语 
言 , 称 为 HQL ,熟悉 SQL 的 开发 者 可 以 很 方便 地 使 用 Hive 进行 开发 。 同 时 ,这 个 语言 也 
允许 熟悉 MapReduce 开发 者 的 开发 自 定义 的 Mapper 和 Reducer 来 处 理 内 建 的 Mapper 
和 Reducer 无 法 完成 的 复杂 的 分 析 工 作 。 

Hive 采用 类 SQL 的 查询 方式 ,将 SQL 查询 转换 为 MapReduce 的 job 在 Hadoop 集 
群 上 执行 。 


2. 数据 存储 位 置 


Hive 建立 在 Hadoop 之 上 ,所 有 Hive 的 数据 都 存储 在 HDFS 中 。 而 数据 库 则 可 以 
将 数据 保存 在 块 设备 或 者 本 地 文件 系统 中 。 


3. 数据 格式 


Hive 中 没有 定义 专门 的 数据 格式 ,数据 格式 可 以 由 用 户 指定 ,用 户 定义 数据 格式 需 
要 指定 3 个 属性 : 列 分 隔 符 (通常 为 空格 、\t、\x001) , 行 分 隔 符 (\n) 以 及 读 取 文件 数据 的 
方法 (Hive 中 默认 有 TextFile ,SequenceFile 和 RCFile 3 个 文件 格式 )。 由 于 在 加 载 数据 的 过 
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程 中 ,不 需要 从 用 户 数据 格式 到 Hive 定义 的 数据 格式 的 转换 , Hive 在 加 载 的 过 程 中 不 会 对 
数据 本 身 进行 任何 修改 ,只 是 将 数据 内 容 复制 或 者 移动 到 相应 的 HDFS 目录 中 。 

而 数据 库 中 ,不 同 的 数据 库 有 不 同 的 存储 引擎 ,定义 了 自己 的 数据 格式 。 所 有 数据 都 
会 按照 一 定 的 组 织 存储 ,因此 数据 库 加 载 数据 的 过 程 会 比较 耗 时 。 


4. 数据 更 新 


Hive 是 针对 数据 仓库 应 用 设计 的 ,而 数据 仓库 的 内 容 读 多 写 少 。 因 此 , Hive 不 支持 
对 数据 的 改写 和 添加 ,所 有 的 数据 都 是 在 加 载 的 时 候 确 定好 的 。 而 数据 库 中 的 数据 通常 
是 需要 修改 的 ,因此 使 用 INSERTINTO…VALUES 添加 数据 ,使 用 UPDATE…SET 修 
改 数据 。 


5. 索引 


Hive 在 加 载 过 程 中 不 会 对 数据 进行 任何 处 理 , 甚 至 不 会 对 数据 进行 扫描 ,因此 也 没 
有 对 数据 中 的 某 些 key 建立 索引 。Hive 要 访问 数据 中 满足 条 件 的 特定 值 时 ,需要 暴力 扫 
描 整 个 数据 ,因此 访问 延迟 较 高 。 由 于 MapReduce 的 引入 ,Hive 可 以 并 行 访 问 数据 , 即 
使 没有 索引 ,对 于 大 数据 量 的 访问 ,Hive 仍然 可 以 体现 出 优势 。 

数据 库 中 ,通常 会 针对 一 个 或 者 几 个 列 建 立 索引 ,因此 对 于 少量 特定 条 件数 据 的 访 
问 ,数据 库 可 以 有 很 高 的 效率 , 较 低 的 延迟 。 由 于 数据 的 访问 延迟 较 高 ,决定 了 Hive 不 
适合 在 线 数据 查询 。 


6. 执行 


Hive 中 大 多 数 查 询 的 执行 是 通过 Hadoop 提供 的 MapReduce 实现 的 (类 似 select * 
from tablel 的 查询 不 需要 MapReduce) 。 而 数据 库 通常 有 自己 的 执行 引擎 。 


7. 执行 延迟 


Hive 在 查询 数据 时 没有 索引 ,需要 扫描 整个 表 , 因 此 延迟 较 高 。 另 一 个 导致 Hive 执 
行 延迟 高 的 因素 是 MapReduce 框架 。MapReduce 本 身 具 有 较 高 的 延迟 ,在 利用 
MapReduce 执行 Hive 查询 时 ,也 会 有 较 高 的 延迟 。 相 对 而 言 , 数 据 库 的 执行 延迟 较 低 。 
当然 ,这 个 低 是 有 条 件 的 , 即 数 据 规模 较 小 , 当 数 据 规模 大 到 超过 数据 库 的 处 理 能 力 时 ， 
Hive 的 并 行 计算 显然 能 体现 出 优势 。 


8. 可 扩展 性 


Hive 建立 在 Hadoop 之 上 ,因此 Hive 的 扩展 性 和 Hadoop 的 可 扩展 性 是 一 致 的 。 而 
数据 库 由 于 ACID 语义 的 严格 限制 ,扩展 性 非常 有 限 。 目 前 最 先进 的 并 行 数据 库 Oracle 
在 理论 上 的 扩展 能 力也 只 有 100 台 左 右 。 


9. 数据 规模 


Hive 建立 在 集群 上 并 可 以 利用 MapReduce 进行 并 行 计算 ,可 以 支持 很 大 规模 的 数 
据 , 数 据 库 可 以 支持 的 数据 规模 较 小 。 
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6.8.4 Hive 的 安装 


Hive 的 安装 依赖 Hadoop 集群 , 它 运行 在 Hadoop 的 基础 上 。 所 以 ,安装 Hive 之 前 ， 
需要 保证 Hadoop 集群 能 够 成 功 运 行 。Hive 是 Apache 的 一 个 顶级 开源 项 目 , 本 书 使 用 
的 版 本 是 2. 3. 3。 


1. 下 载 安装 包 


从 网 站 http://mirror. bit. edu. cn/apache/hive 下 载 Hive 安装 包 apache-hive-2. 3. 
3. bin. tar. gz, 并 将 其 解压 到 /usr/local 中 。 


[hadoop@abcl ~ ]$sudo tar - zxfv ~ /Downloads/apache- hive- 2.3.3-bin.tar.gz -C /usr/local 
[hadoopeabcl locall]$cd /usr/local 
[hadoopeabcl local]$sudo mv apache-hive- 2.3.3-bin hive ” // 将 目录 名 改 为 hive 


2. 修改 环境 变量 /etc/profile 


[hadoop@abcl local]$sudo vi /etc/profile 
#hive 
export HIVE HOME= /usr/local/hive 
export PATH= $PATH: $HIVE HOME/bin 
[hadoopeabcl local]$source /etc/profile 


3. 验证 

[hadoop@abcllocal] $hive -— version 

Hive 2.3.3 

Gitgit://daijymaqpro- 2.l0ocal/Users/daijy/ommit/hive-r 8a5lle3f7q9b4334qbe4lcd23lcf5c9 
9e43b248383 


Compiled by daijy on Wed Mar 28 16:58:33 PDT 2018 
From source with checksum 8873bba6c55a058614e74c0e628ab022 


显示 Hive 的 版 本 ,安装 成 功 。 
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IP 地 址 是 因特网 上 主机 分 配 的 在 全 世界 范围 内 唯一 的 标识 。 目 前 ,使 用 较 多 的 互联 
网 协议 为 IPv4。 但 由 于 前 期 IPv4 地 址 分 配 不 合理 和 互联 网 的 迅速 发 展 ,IPv4 地 址 已 经 
消耗 列 尽 。 在 此 背景 下 ,中 共 中 央 办 公 厅 ,国务 院 办 公 厅 于 2017 年 11 月 26 日 联合 印发 
《推进 互联 网 协议 第 六 版 (IPv6 规模 部 署 行动 计划 》, 推 进 我 国 使 用 IPv6 的 步伐 。IPv6 
能 够 提供 充足 的 网 络 地 址 ,是 全 球 公 认 的 下 一 代 互 联网 商业 应 用 解决 方案 。 


7.1 IPv6 基础 知识 
7.1.1 IPv6 地 址 


IPv6 地 址 共 128 位 ,地 址 空间 扩大 到 2 的 128 次 方 ,可 以 说 地 球 上 每 一 平方 米 都 可 
以 有 10 的 26 次 方 个 IP 地址 。 


1. 格式 


IPv6 地 址 如 此 之 多 ,其 地 址 记 法 也 不 同 于 IPv4 的 点 分 十 进 制 记 法 ,而 是 采用 了 冒 分 
上 六 进 制 记 法 。 

冒 分 十 六 进 制 记 法 是 将 IPv6 的 128 位 地 址 分 成 8 段 ,每 段 占 16 位 ,用 十 六 进 制 数 表 
示 , 所 以 每 段 有 4 个 十 六 进 制 数 , 段 与 段 之 间 用 英文 冒号 分 开 。 

格式 为 : x:x:x:x:x:x:x:x (x 代表 4 个 十 六 进 制 数 ), 如 1234:0000:0000:0000: 
0012:0000:0034:00AB。 

IPv6 缩写 规则 如 下 。 

(1) 每 段 中 的 4 个 十 六 进 制 数 , 若 高 位 为 0, 允许 省 略 。 如 1000:0000:0000:0000: 
0000:0060:000C:000D 可 以 简写 为 1000:0:0:0:0:60:C:D。 

(2) IPv6 地 址 中 ,紧密 相连 的 多 个 全 0 的 十 六 进 制 数 的 段 可 以 用 双 冒 号 (::) 替 代 , 但 
为 了 区 分 标识 , 双 冒 号 只 能 用 一 次 。 因 此 ,上 例 中 的 IP 可 继续 简写 为 1000: :60:C:D。 

(3) IPv6 地 址 二 网 络 位 (地 址 前 级 ) 十 主机 位 (接口 标识 ) ,在 IP 地 址 后 面 加 上 “/ 十 数 
字 ”, 其 中 数字 表示 地 址 前 级 的 位 数 。 如 10:0:0:0:0:60:C:D/64 表示 前 64 位 为 网 络 位 。 


2. 类 型 


IPv6 主要 定义 了 3 种 地 址 类 型 ,分 别 是 单 播 地 址 、 组 播 地 址 和 任 播 地 址 。 

单 播 地 址 : 类 似 于 IPv4 中 的 单 播 地 址 ,用 来 唯一 标识 一 个 接口 。 发 送 到 单 播 地 址 的 
数据 报 文 将 被 传送 给 此 地 址 所 标识 的 一 个 特定 的 接口 。 

组 播 地 址 : 类 似 于 IPv4 中 的 组 播 地 址 ,用 来 标识 一 组 接口 (通常 这 组 接口 属于 不 同 
的 节点 )。 发 送 到 组 播 地 址 的 数据 报 文 被 传送 给 此 地 址 标识 的 所 有 接口 。IPv6 的 组 播 地 
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址 容易 区 分 ,总 是 以 FF 开始 。 

任 播 地 址 : IPv6 新 引进 的 地 址 类 型 ,用 来 标识 一 组 接口 (通常 这 组 接口 属于 不 同 的 节 
点 )。 发 送 到 任 播 地 址 的 数据 报 文 被 传送 给 此 地 址 所 标识 的 一 组 接口 中 距离 源 节点 最 近 
(根据 使 用 的 路 由 协议 进行 度量 ) 的 一 个 接口 。 

单 播 地 址 又 具体 包括 了 5 类 ,分 别 为 本 地 链 路 地 址 、 本 地 站 点 地 址 ,全 局 单 播 地 址 、 兼 
容 性 地 址 和 特殊 地 址 。 

(1) 本 地 链 路 地 址 : 类 似 于 IPv4 中 APIPA(Automatic Private IP Addressing ,自动 
专用 IP 寻 址 ) 所 定义 的 地 址 169. 254. 0. 0/16 。IPv6 本 地 链 路 地 址 能 发 现 邻 居 节 点 和 在 
无 状态 自动 配置 中 (不 能 通过 DHCP 获取 地 址 ,也 没有 手工 配置 IP) 链 路 本 地 上 各 节点 之 
间 的 通信 ,但 只 能 在 本 地 链 路 上 使 用 ,不 能 完成 不 同 链 路 间 的 通信 ,不 可 被 路 由 。 本 地 链 
路 地 址 拓扑 图 如 图 7-1 所 示 。 


IPv6 站 点 


图 7-1 本 地 链 路 地 址 拓扑 图 


在 图 7-1 中 ,PC1 与 PC2 之 间 可 以 通信 ,但 无 法 完成 PC1 与 PC3 之 间 的 通信 。 

(2) 本 地 站 点 地 址 : 类 似 于 IPv4 中 的 私有 IP, 如 10. 0. 0. 0/8，172. 16. 0. 0/16-172. 
31.255. 255/16 和 192. 168. 0. 0/16 ,只 在 同一 站 点 内 部 使 用 。 但 IPv6 的 本 地 站 点 地 址 不 
是 为 了 做 NET 转换 ,而 是 应 用 于 企业 内 部 ,如 做 内 部 服务 器 用 来 分 配 IP 地 址 ,远程 管理 
企业 内 部 服务 器 .路 由 网 络 设备 等 。 

(3) 全 局 单 播 地 址 : 类 似 于 IPv4 的 公有 IP, 如 202. 202. 202. 1/30。 此 类 地 址 可 以 进 
行 全 局 路 由 访问 。 

(4) 兼容 性 地 址 : 它 是 一 种 IPv4 到 IPv6 网 络 的 兼容 过 渡 机 制 ,通过 隧道 技术 使 
IPv6 的 数据 包 能 在 IPv4 网 络 上 传输 。 兼 容 性 地 址 的 格式 是 高 96 位 由 二 进 制 的 0 组 成 ， 
低 32 位 是 由 十 进 制 的 IPv4 地 址 组 成 ,如 图 7-2 所 示 。 

(5) 特殊 地 址 : 特殊 地 址 主要 包括 环 回 地 址 和 未 指定 地 址 。IPv6 环 回 地 址 类 似 于 
IPv4 中 的 127. 0.0.1, 用 于 本 地 环 回 测试 ,IPv6 中 环 回 地 址 为 ::1。 未 指定 地 址 类 似 于 
IPv4 中 的 0.0. 0.0, 是 没有 给 任何 接口 分 配 单 播 地 址 ,IPv6 中 未 指定 地 址 为 :: 。 
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128 位 
0 IPv4 地 址 
32 位 


96 位 
IPv4: 202.202.202.1 
IPv6: 0000:0000:0000:0000:0000 202.202.202.1 


7-2 ”IPv4 过 渡 IPv6 的 兼容 地 址 (202. 202. 202. 1) 


7.1.2 IPv6 报 文 格式 


IPv6 的 报 文 由 3 部 分 组 成 : 固定 首部 .扩展 首部 和 上 层 协议 数据 。 

固定 首部 记录 了 报 文 的 基本 信息 , 共 40 字 节 。 内 容 包括 8 个 部 分 ,分 别 为 版 本 号 、 传 
输 类 别 ,流标 签 有 效 载荷 长 度 . 下 一 报头 、 跳 数 限制 . 源 地址 以 及 目的 地 址 。 报 文 格式 如 
图 7-3 所 示 。 


版 本 号 | 。 全 流标 符 
有 效 载荷 长 度 下 一 报头 | 。 跳 数 限 制 
源 地 址 
目的 地 址 
扩展 首部 
上 层 协议 数据 


图 7-3 IPv6 报 文 格式 


版 本 号 (Version): 占 4 位 ,表示 协议 的 版 本 ,其 值 为 6(0110) 。 

传输 类 别 (Traffic Class): 占 8 位 ,类 似 于 IPv4 中 的 区 分 服务 字段 ,用 来 确定 不 同 优 
先 级 的 IPv6 分 组 ,进而 实施 不 同 的 QoS( 网 络 服务 质量 ) 。 

流标 签 (Flow Label) : 占 20 位 ,可 将 特定 的 数据 流 打 上 标签 ,以 便 路 由 器 能 够 识别 
此 条 数据 流 ,就 不 必 一 一 查找 数据 包头 部 ,进而 节省 时 间 。 若 不 需要 流标 签 ,可 将 其 置 0。 

有 效 载荷 长 度 (Payload Length): 占 16 位 ,是 指 除了 固定 首部 外 IPv6 数据 报 文 的 长 
度 , 即 扩展 首部 长 度 十 上 层 协议 数据 长 度 。 

下 一 报头 (Next Header): 占 8 位 ,用 来 指明 IPv6 数据 报头 后 接 的 报 文 首部 类 型 ,如 
果 有 扩展 首部 , 则 表示 第 一 个 扩展 首部 的 类 型 , 若 没 有 , 则 表示 上 层 协议 的 协议 类 型 。 

跳 数 限制 (Hop Limit) : 占 8 位 ,类 似 于 IPv4 中 的 TTL, 用 来 衡量 一 个 数据 报 文 能 经 
过 多 少 路 由 转发 ,每 经 过 一 个 路 由 , 跳 数 减 1, 当 跳 数 为 0 时 ,将 报 文 丢弃 。 

源 地 址 (Source Address): 占 128 位 ,用 来 标识 报 文 的 源 地 址 。 

目的 地 址 (Destination Address): 占 128 位 ,用 来 标识 报 文 的 目的 地 址 。 

扩展 首部 由 一 个 或 多 个 扩展 报头 组 成 ,用 来 实现 IPv4 中 “选项 ”字段 的 功能 ,“ 下 一 报 
头 ” 字 段 配合 扩展 报头 使 用 。 即 “下 一 报头 ”字段 指明 首 个 扩展 报头 的 类 型 ,再 根据 所 指 类 
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型 对 扩展 报头 进行 处 理 。 若 一 个 数据 报 中 包含 多 个 扩展 报头 , 则 在 “下 一 报头 ?字段 中 指 
明 首 个 扩展 报头 的 类 型 ,在 首 个 扩展 报头 的 “下 一 报头 字段 中 指明 第 二 个 扩展 报头 的 类 
型 ,最 后 一 个 扩展 报头 的 “下 一 报头 ”字段 指明 的 应 该 是 上 层 协议 类 型 。 

IPv6 报 文中 扩展 头 的 使 用 示例 如 图 7-4 所 示 ,第 一 个 报 文 不 包含 任何 扩展 头 ; 第 二 个 
报 文 包含 一 个 扩展 头 , 为 路 由 扩展 头 ;第 三 个 报 文 包含 两 个 扩展 头 ,分 别 为 路 由 扩展 头 和 
分 片 扩展 头 。3 个 报 文中 “TCP 头 部 十 数据 ?部 分 为 上 层 协议 数据 部 分 。 


IPv6 报 头 


下 一 报头 2TCP TCP 头 部 :数据 


无 扩展 报头 ， 上 层 协议 为 TCP 


IPv6 报 头 
下 一 报头 -路 由 头 


路 由 扩展 头 


下 一 报头 =TCP TCP 头 部 :数据 


一 个 扩展 报头 ， 上 层 协 议 为 TCP 


IPv6 报 头 


下 一 报头 -路 由 头 TCP 头 部 + 数据 


多 个 扩展 报头 ， 上 层 协 议 为 TCP 
图 7-4 IPv6 报 文 中 扩展 头 的 使 用 示例 


IPv6 的 扩展 报头 有 很 多 种 ,本 书 将 简 述 以 下 6 种 。 

OO 逐 跳 选项 报头 (hop-by-hop options header) : 所 用 协议 为 0, 此 类 报头 会 被 转发 路 
径 中 所 有 节点 处 理 , 因 而 多 用 于 巨型 数据 包 或 路 由 器 警报 等 。 

@ 目的 选项 报头 (destination options header) : 所 用 协议 为 60, 多 用 于 移动 IP, 能 实 
现 移动 漫游 功能 , 即 当 移动 节点 的 连接 点 改变 时 ,仍然 可 以 保持 原 移 动 节点 的 IP 不 变 。 

@ 路 由 报头 (routing header) : 所 用 协议 为 43 ,可 通过 IPv6 的 源 节点 来 指定 数据 包 
所 经 过 的 中 间 路 由 器 列表 ,规划 数据 包 的 传输 路 线 。 

图 分 段 报头 (fragment header) : 所 用 协议 为 44 ,数据 分 段 是 由 源 节点 完成 的 , 当 要 
发 送 的 数据 长 度 大 于 MTU(maximum transmission unit, 最 大 传输 单元 ) 时 ,应 将 一 个 数 
据 报 文 分 成 几 段 ,进行 传输 。 

@ 认证 报头 (authentication header) : 所 用 协议 为 51,IPsec(Internet 协议 安全 性 ) 使 
用 ,提供 报 文 认证 、 完 整 性 检查 和 重 放 保 护 。 

封装 安全 有 效 载荷 报头 (encapsulating security payload header) : 所 用 协议 为 50， 
IPsec 使 用 ,提供 报 文 认证 ,完整 性 检查 、 重 放 保 护 和 IPv6 数据 包 加 密 。 

在 使 用 以 上 6 种 扩展 报头 时 ,最 好 按照 逐 跳 选项 报头 、 目 的 选项 报头 、 路 由 报头 、 分 段 
报头 、 认 证 报头 封装 安全 有 效 载 荷 报头 的 顺序 使 用 。 
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7.2 IPv6 使 用 协议 
7.2.1 邻居 发 现 协 议 


邻居 发 现 协议 (Neighbor Discovery Protocol, NDP) 是 IPv6 非常 重要 的 一 个 基础 性 
协议 ,其 中 邻居 是 指 相同 链 路 的 其 他 节点 。NDP 包括 IPv4 中 ARP(Address Resolution 
Protocol, 地 址 解析 协议 ) ICMP(JInternet Control Message Protocol, Internet 控制 报 文 
协议 ?路 由 器 发 现 和 ICMP 重 定向 等 协议 ,不 仅 如 此 ,NDP 还 包括 了 前 缀 发 现 、 重 复 地 址 
检测 、. 地 址 自动 配置 .邻居 不 可 达 检 测 等 功能 。 

邻居 发 现 协议 是 通过 5 种 类 型 的 ICMPv6 实现 其 各 种 功能 ,分 别 为 路 由 器 请 求 
(Router Solicitation ,RS) .路 由 器 公告 (Router Advertisment,RA) 、 邻 居 请 求 (Neighbor 
Solicitation,NS)、 邻 居 公 告 (Neighbor Advertisement,NA) 和 重 定向 (Redirect) 功能 。 
ICMPv6 报 文 类 型 如 表 7-1 所 示 。 


表 7-1 ICMPv6 报 文 类 型 表 


ICMPv6 类 型 消息 名 称 ICMPv6 类 型 消息 名 称 
TYPE=133 路 由 器 请 求 TYPE=136 邻居 公告 
TYPE=134 路 由 器 公告 TYPE=137 重 定向 
TYPE=135 邻居 请 求 


邻居 发 现 协议 功能 强大 ,本 文 将 简 述 其 6 种 重要 功能 ,分 别 为 路 由 器 发 现 、 地 址 解析 、 
重 定向 功能 、 邻 居 不 可 达 检 测 重复 地 址 检测 以 及 前 级 重新 编 址 。 


1. 路 由 器 发 现 


用 来 标识 定位 与 给 定 链 路 相连 的 路 由 器 ,并 获取 其 配置 信息 的 过 程 , 具 体 主要 包括 以 
下 和 方面 。 

(1) 路 由 器 发 现 (Router Discovery) : 主机 发 现 邻居 路 由 器 并 选择 其 中 一 个 作为 默认 
网 关 的 过 程 。 

(2) 前 级 发 现 (Prefix Discovery): 主机 发 现 本 地 链 路 上 一 组 IPv6 前 级 并 生成 前 级 
列表 的 过 程 。 前 缀 列表 可 用 于 主机 的 地 址 自动 配置 和 on-link 判断 。 

(3) 参数 发 现 (Parameter Discovery): 主机 发 现 相关 配置 参数 (如 MTU ,地 址 分 配方 
式 等 ) 的 过 程 。 


2. 地 址 解析 


相 较 于 IPv4 的 ARP,NDP 的 地 址 解析 功能 只 工作 在 网 络 层 ,而 与 数据 链 路 层 无 关 。 
这 样 既 增强 了 协议 的 独立 性 ,又 防止 了 ARP 攻击 和 ARP 欺骗 ,增加 了 安全 性 。 

地 址 解析 是 通过 节点 之 间 交 换 邻 居 请 求 和 邻居 公告 完成 网 络 层 到 数据 链 路 层 的 解 
析 , 并 且 把 解析 后 的 信息 建立 相应 的 邻居 缓存 表 项 。 
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3. 重 定向 功能 


在 重 定向 过 程 中 ,路 由 器 通过 发 送 重 定向 报 文 来 通知 链 路 上 的 报 文 发 送 节点 信息 ,如 
果 在 同一 链 路 上 存在 一 个 更 优 的 下 一 跳 路 由 。 接 收 到 该 消息 的 节点 应 据 此 修改 其 本 地 路 
由 表 项 。 路 由 器 仅 为 单 播 数据 流 发 送 重 定向 报 文 ,而 重 定向 报 文 也 仅 以 单 播 形式 发 送 到 
源 主机 ,并 且 只 会 被 源 节点 处 理 。 


4. 邻居 不 可 达 检 测 (Neighbor Unreachable Detection,NUD) 

用 来 确定 邻居 节点 是 否 可 达 。 邻 居 不 可 达 检 测 机 制 是 通过 邻居 可 达 性 状态 机 来 描述 
邻居 可 达 性 的 ,并 把 状态 机 保存 在 邻居 缓存 表 中 。 邻 居 可 达 性 状态 机 状态 表 如 图 7-2 
所 示 。 

表 7-2 邻居 可 达 性 状态 机 状态 表 


INCOMPLETE( 未 完成 状态 ) 正在 解析 地 址 ,邻居 链 路 地 址 未 确定 

REACHABLE( 可 达 状 态 ) 解析 成 功 ,邻居 可 达 

STALE( 失 效 状 态 ) 可 达 时 间 耗 尽 , 不 能 确定 邻居 是 否 可 达 

DELAY( 延 迟 状态 ) 延 时 等 待 状态 ,不 能 确定 邻居 是 否 可 达 

PROBE( 探 测 状态 ) 节点 会 向 处 于 PROBE 状态 的 邻居 持续 发 送 邻居 请 求 报 文 
EMPTY( 空 闲 状态 ) 此 节点 上 没有 相关 邻接 点 的 邻居 缓存 表 项 


5. 重复 地 址 检测 (Duplicate Address Detection ,DAD) 


用 来 确定 节点 即将 使 用 的 地 址 是 否 与 链 路 上 其 他 地 址 重复 。IPv6 所 有 的 单 播 地 址 ， 
无 论 以 何 种 方式 配置 ,必须 经 过 重复 地 址 检测 的 过 程 。 

重复 地 址 检测 是 通过 NS 和 NA 报 文 实现 的 。 节 点 发 送 NS 报 文 ,其 源 地址 为 未 指 
定 的 ,目的 地 址 需要 检测 的 IPv6 地 址 。 在 NS 报 文 发 送 到 链 路 上 后 , 若 没有 在 规定 时 间 
内 收 到 应 答 的 NA 报 文 , 则 认为 这 个 单 播 地 址 在 链 路 上 是 唯一 的 ,可 以 分 配给 接口 ;反之 ， 
如 果 收 到 应 答 的 NA 报 文 , 则 表明 这 个 地 址 已 经 被 其 他 节点 使 用 ,不 能 配置 到 接口 。 


6. 前 组 重新 编 址 (Prefix Renumbering) 


若 IPv6 地 址 的 网 络 前 级 发 生变 化 ,路 由 器 会 在 本 地 链 路 上 发 布 新 的 网 络 参数 信息 ， 
主机 得 到 该 信息 后 ,会 重新 配置 网 络 前 绥 。 


7.2.2 IPv6 地 址 自动 配置 协议 


IPv6 同时 定义 了 两 种 地 址 自动 配置 协议 分别 为 无 状态 地 址 自动 配置 协议 (Stateless 
Address Autoconfiguration, SLAAC) 和 IPv6 动态 主机 配置 协议 (Dynamic Host 
Configuration Protocol,DHCPv6) 。 


1. 无 状态 地 址 自动 配置 
无 状态 地 址 自动 配置 不 需要 额外 的 服务 器 分 配 管理 地 址 ,而 是 主机 通过 计算 进行 自 
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动 地 址 配置 。 

无 状态 是 通过 邻居 发 现 协议 来 实现 的 ,主要 用 到 了 邻居 发 现 协议 中 路 由 器 发 现 功能 、 
重复 地 址 检测 功能 以 及 前 缀 重新 编 址 功能 。 具 体 分 为 两 个 阶段 : 配置 本 地 链 路 地 址 和 配 
置 全 球 单 播 地 址 ,具体 配置 步骤 如 下 。 

(1) 启动 一 个 网 络 接口 ,主机 会 自动 为 此 接口 生成 一 个 本 地 链 路 地 址 。 

(2) 进行 重复 地 址 检测 , 若 此 地 址 在 与 其 他 地 址 发 生地 址 冲突 , 则 要 为 该 接口 重新 手 
动 配置 一 个 本 地 链 路 地 址 。 

(3) 主机 向 路 由 器 发 送 请 求 , 获 取 全 局 前 绥 信 息 。 

(4) 主机 根据 获取 到 的 全 局 前 级 进行 前 级 重新 编 址 ,并 改变 全 局 地 址 ,完成 无 状态 地 
址 自动 配置 。 


2. IPv6 动态 主机 配置 协议 


DHCPv6 是 一 种 有 状态 的 地 址 自动 配置 协议 ,通过 DHCPv6 服务 器 为 主机 分 配 一 个 
完整 的 IP 地址 。DHCPv6 基本 架构 如 图 7-5 所 示 。 


Clients DHCPv6 Relay 


Clients 避 


IPv6 Server 
7-5 DHCPv6 基本 架构 


Client: DHCPv6 客户 端 ,请 求 IP 地 址 的 一 端 。 

DHCPv6 Relay: DHCPv6 中 继 代理 ,用 来 转发 客户 端的 请 求 或 是 服务 器 端的 相应 内 
容 ,协助 客户 端 和 服务 器 完成 地 址 配置 。 

DHCPv6 Server: DHCPv6 服务 器 ,负责 处 理 客户 端 或 中 继 器 发 来 的 请 求 ,为 客户 端 
分 配 IPv6 地 址 和 其 他 网 络 配置 信息 。 

DHCPv6 客户 端 与 DHCPv6 服务 器 的 通信 可 以 通过 本 地 链 路 范围 内 的 组 播 地 址 , 若 
服务 器 和 客户 端 不 在 同一 链 路 范围 内 , 则 需要 DHCPv6 中 继 进行 转发 。 由 于 DHCPv6 
中 继 的 存在 ,DHCPv6 服务 器 不 用 存在 于 每 一 条 链 路 之 中 ,节约 了 大 量 成 本 ,也 利于 集中 


管理 。 
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7.2.3 IPv6 路 由 选择 协议 


IPv6 的 路 由 选择 协议 总 体 结构 与 IPv4 相似 ,被 分 为 两 大 类 : 内 部 网 关 协议 (Interior 
Gateway Protocol,IGP) 和 外 部 网 关 协 议 (Exterior Gateway Protocol, EGP)。 内 部 网 关 
协议 ,是 指 在 一 个 自治 系统 (Autonomous System, AS) 内 部 使 用 的 协议 ,如 RIPng、 
OSPFv3。 外 部 网 关 协 议 , 是 当 数 据 包 传 到 一 个 自治 系统 边界 时 ,就 需要 使 用 一 种 协议 将 
路 由 选择 信息 传递 到 另 一 个 自治 系统 中 ,如 BGP 4 十 。 


1. RIPng 


RIPng, 内 部 网 关 协 议 ,与 RIP(Routing Information Protocol, 路 由 信息 协议 ) 类 似 ， 
是 IETF(The Internet Engineering Task Force, 国 际 互联 网 工程 任务 组 ) 为 了 解决 RIP 
与 IPv6 不 兼容 的 问题 ,而 对 RIP 协议 进行 改进 制定 的 。 

与 RIP 相同 ,RIPng 也 是 基于 “距离 ”向 量 的 路 由 选择 协议 。 所 谓 距离 ,是 定义 路 由 
器 到 直接 连接 网 络 上 其 他 路 由 的 距离 为 1。 路 由 器 到 RI 
非 直 接连 接 网 络 上 其 他 路 由 ,每 经 过 一 个 路 由 器 , 距 
离 就 加 1。 如 图 7-6 所 示 , 路 由 器 R2 到 路 由 器 Rl 的 
距离 为 1,R2 到 网 络 C 的 距离 为 2。 

(1) RIPng 协议 应 该 注意 以 下 3 点 。 

@ 好 的 路 径 距 离 短 , 即 通过 的 路 由 器 数目 少 。 

@ RIPng 允许 一 条 路 径 最 多 通过 15 个 路 由 器 ， ”图 7-6 路 由 选择 协议 的 拓扑 图 
当 路 由 器 数目 大 于 等 于 16 时 , 视 为 不 可 达 , 因 此 
RIPng 只 适合 小 型 网 络 。 

@ RIPng 不 能 在 两 个 网 络 间 使 用 多 条 路 由 ,只 选择 一 个 具有 最 小 路 由 器 数目 的 路 径 
(最 短路 由 ) 。 

(2) RIPng 协议 工作 原理 。 

RIPng 协议 是 通过 UDP 报 文 交换 路 由 信息 的 ,所 使 用 的 端口 号 为 521 。 

使 用 RIPng 协议 的 路 由 器 每 30s 就 会 向 与 它 相 连 的 网 络 广播 发 送 一 次 路 由 更 新 报 
文 , 收 到 更 新 报 文 的 路 由 器 就 会 更 新 自身 的 路 由 表 。 正 常情 况 下 ,路 由 器 在 每 30s 就 会 收 
到 一 次 路 由 确认 信息 。 如 果 180s 内 还 没有 得 到 邻居 路 由 节点 的 确认 , 则 认为 此 节点 不 可 
达 。 若 是 再 过 120s 仍 没有 收 到 邻居 路 由 节点 的 确认 ,RIPng 将 从 路 由 表 中 删除 此 节点 。 
上 述 的 时 间 ,30s、180s、120s 是 由 3 个 计时 器 控制 的 ,分 别 为 更 新 计时 器 (UpdateTimer)、 
暂时 超时 计时 器 (Timeout) 和 垃圾 收集 计时 器 (Garbage 一 collection Timer) 。 

(3) RIPng 报 文 格式 。 

Q@ 基本 格式 如 图 7-7 所 示 。 

字段 含义 如 下 。 

Command: 占 8 位 ,用 来 定义 报 文 的 类 型 (0x01: request 报 文 ;0x02: response 报 文 )。 

Version: 占 8 位 ,用 来 表示 RIPng 的 版 本 ,目前 值 为 0x01 。 

Must be zero: 占 16 位 ,全 部 填 0 即 可 。 
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Command | Version Must be zero 


Route table entry 1 


Route table entry m 


图 7-7 RIPng 基本 报 文 格式 


RTE(Route table entry): 路 由 表 项 ,每 项 占 20 个 字 节 。 

@ RTE 格式 。 

RIPng 共 定 义 了 两 类 路 由 表 项 ,分 别 是 下 一 跳 RTE 和 IPv6 前 级 RTE。 

下 一 跳 RTE 定义 了 下 一 跳 的 IPv6 地 址 ,一 个 下 一 跳 RTE 后 面 可 以 有 一 个 或 多 个 
IPv6 前 RTE。 下 一 跳 RTE 格式 如 图 7-8 所 示 。 


IPv6 next hop address (128 b) 
(下 一 跳 IPv6 地 址 ) 


Must be zero 


Must be zero 


图 7-8 下 一 跳 RTE 格式 


IPv6 前 级 RTE 描述 了 目的 IPv6 地 址 、 路 由 标记 、 前 缀 长 度 以 及 度量 值 ,如 图 7-9 
所 示 。 


IPv6 prefix (128b) 
(目的 IPv6 地 址 的 前 组 ) 


Route tag (16b) Prefix length (8b) Metric (8b) 
(路 由 标记 ) (IPv6 地 址 的 前 缀 长 度 ) | 路 由 度量 值 


图 7-9 IPv6 前 级 RTE 格式 


2. OSPFv3 


OSPFv3(Open Shortest Path First Version3, 开 放 式 最 短路 径 优先 第 三 版 ) 属 于 内 部 
网 关 协 议 , 是 基于 链 路 状态 的 协议 。OSPFv3 中 一 个 链 路 可 以 划分 为 多 个 子 网 ,节点 即使 
不 在 同一 个 子 网 内 ,只 要 在 同一 链 路 上 就 可 以 直接 通话 。OSPFv3 典型 组 网 如 图 7-10 
所 示 。 

OSPFv3 与 OSPFv2 有 许多 相似 之 处 ,都 使 用 Dijkstra 提出 的 SPF (Shortest Path 
First ,最 短路 径 优 先 ) 算 法 ,发 送 路 由 消息 时 都 采取 洪 泛 法 ,都 采取 DR (Designated 
Router, 制 定 路 由 器 ) 选 举 等 基本 机 制 。 

由 于 OSPFv2 在 报 文 内 容 、 运 行 机 制 等 方面 与 IPv4 联系 密切 ,限制 了 其 扩展 性 和 适 
应 性 ,因此 为 了 在 IPv6 的 环境 中 更 好 地 运行 OSPF 协议 ,在 OSPFv2 的 基础 上 进行 修正 
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图 7-10 OSPFv3 典型 组 网 图 


处 理 后 产生 了 OSPFv3 协议 。 所 以 ,OSPFv3 与 OSPFv2 也 存在 许多 不 同 点 ,主要 有 以 下 


几 点 不 同 。 


(1) OSPFv3 是 基于 链 路 运行 的 ,而 OSPFv2 是 基于 子 网 运行 的 。 就 是 说 ,OSPFv2 
要 求 邻居 之 间 形 成 邻接 关系 必须 两 端的 IP 地 址 属于 同一 网 段 且 子 网 掩 码 相 同 。 而 
OSPFv3 要 求 只 需 在 一 个 链 路 上 ,即使 不 在 一 个 子 网 内 也 可 正常 通信 。 基 于 子 网 运行 与 
基于 链 路 运行 的 拓扑 图 如 图 7-11 所 示 。 


路 由 器 A 


10.1.1.1/24 由 由 出 B 


10.1.1.2/24 
路 由 器 C 
10.1.1.3/24 

基于 子 网 运行 


OSPFv2 


OSPFv3 


路 由 器 A 


B 
SF00.1111::1/32 于 


路 由 器 C SF00.2222::1/32 


SF00.3333::1/32 
基于 链 路 运行 


图 7-11 基于 子 网 运行 与 基于 链 路 运行 的 拓扑 图 


(2) OSPFv3 取消 了 编制 性 语义 。 在 OSPFv2 中 报 文 的 数据 内 容 决定 其 邻居 路 由 器 
标识 、 邻 居 建 立 等 多 种 机 制 必须 基于 IPv4 来 进行 。 而 OSPFv3 中 取消 了 这 些 编 址 性 语 
义 , 而 只 保留 协议 运行 必须 的 核心 内 容 ,用 以 保证 OSPFv3 协议 能 够 独立 于 网 络 协议 


二 4 


运 休 。 
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(3) 链 路 本 地 地 址 的 使 用 。OSPFv2 要 求 每 一 个 运行 OSPF 协议 的 路 由 器 接口 都 必 
须 有 一 个 全 局 的 IPv4 地 址 。 而 在 IPv6 中 ,每 个 运行 OSPF 协议 的 路 由 器 接口 都 会 分 配 
一 个 本 地 链 路 地 址 ,此 地 址 只 在 本 地 链 路 有 效 , 而 且 作 为 协议 分 组 发 送 的 源 地 址 ( 虚 连 接 
除外 ) 和 路 由 的 下 一 跳 。 由 于 本 地 链 路 地 址 只 在 本 链 路 上 有 意义 上 且 只 能 在 本 链 路 上 泛 洪 ， 
因此 链 路 本 地 地 址 只 能 出 现在 Link LSA 中 。 


3. BGP 4 十 


BGP4 十 (Border Gateway Protocol 4 十 ,边界 网 关 协 议 ) 属 于 外 部 网 关 协 议 。 由 于 
BGP 4 只 能 管理 IPv4 的 路 由 信息 ,没有 很 好 的 扩展 性 ,所 以 IETF 对 BGP4 进行 了 多 协 
议 扩 展 ,形成 了 支持 IPv6 的 BGP 4 十 协议 。 

BGP 4 十 相 较 于 BGP 4 消息 机 制 和 路 由 机 制 没有 做 过 多 的 改变 。 但 为 了 适应 更 多 的 
网 络 层 协议 ,BGP 4 十 则 需要 将 IPv6 网 络 层 协议 的 信息 反映 到 NLRI(Network Layer 
Reachable Information) 及 下 一 跳 (Next Hop) 属 性 中 。 因 此 ,BGP4 十 添加 了 两 个 新 属性 ， 
分 别 为 多 协议 可 达 NLRICMP-REACH-NLRI) 和 多 协议 不 可 达 NLRI(MP-UNREACH- 
NLRD) 。 

多 协议 可 到 达 NLRI, 用 于 发 布 可 到 达 路 由 及 下 一 跳 信息 。 

多 协议 不 可 达 NLRI, 用 于 撤销 不 可 达 路 由 。 


7.3 ”IPv4 到 IPv6 的 过 渡 技 术 


虽然 IPv6 的 技术 已 经 成 熟 且 广泛 应 用 势 在 必 行 ,但 IPv6 不 可 能 立刻 全 部 替代 IPv4， 
因而 在 相当 长 的 一 段 时 间 内 ,IPv4 与 IPv6 会 共存 并 逐渐 完成 由 IPv4 向 IPv6 的 过 渡 。 为 
实现 平稳 过 渡 ,IETF 推荐 了 以 下 几 种 过 渡 技 术 。 


7.3.1 IPv6/IPv4 双 协 议 栈 技术 


IPv6/IPv4 双 协 议 栈 技术 是 将 IPv4 和 IPv6 同时 应 用 于 同一 物理 平台 , 即 在 一 台 主 
机 上 同时 支持 IPv4 和 IPv6 两 种 协议 。 这 样 ,无 论 是 仅 支持 IPv4 的 平台 还 是 仅 支持 IPv6 
的 平台 ,都 可 以 与 该 主机 通信 。 双 协议 栈 结 构图 如 图 7-12 所 示 。 


应 用 层 协议 


TCP/IP 协 议 


IPv4 协 议 IPv6 协 议 


IP 层 以 下 部 分 


7-12” 双 协议 栈 结构 图 


第 7 章 IPv6 233 


1. 双 协 议 栈 的 工作 方式 


支持 双 协 议 栈 的 主机 , 当 只 运行 IPv4 协议 时 ,就 只 能 当 IPv4 的 节点 使 用 ,只 可 识别 
IPv4 的 报 文 。 同 样 , 当 只 运行 IPv6 协议 时 ,就 只 能 当 IPv6 的 节点 使 用 ,只 可 识别 IPv6 的 
报 文 。 

当主 机 同时 启用 IPv4 协议 和 IPv6 协议 时 ,主机 的 主要 通信 可 从 接收 数据 包 和 发 送 
数据 包 两 方面 讨论 。 

1) 接收 数据 包 

数据 链 路 层 收 到 报 文 之 后 ,把 其 拆 开 并 检查 报 文 。 无 论 是 IPv4 报 文 头 部 还 是 IPv6 
报 文 头 部 ,第 一 个 字段 都 是 版 本 号 。 因 此 , 若 链 路 层 检查 到 版 本 号 为 4, 就 提交 给 IPv4 节 
点 ;车 检查 到 版 本 号 为 6, 就 提交 给 IPv6 节点 ; 若 采 用 了 自动 隧道 技术 , 则 根据 其 技术 特 
点 将 数据 包 进行 整合 ,再 提交 给 IPv6 节点 。 

2) 发 送 数据 包 

应 用 层 发 送 的 数据 包 到 底 是 通过 IPv4 节点 还 是 IPv6 节点 ,主要 取决 于 目的 地 址 。 
目的 地 址 具体 又 分 为 以 下 5 种 。 

Oy 目的 地 址 为 IPv4, 则 采取 IPv4 协议 。 

@ 目的 地 址 为 IPv6, 并 且 是 本 地 在 线 网 络 , 则 采取 IPv6 协议 。 

@ 目的 地 址 为 IPv4 兼容 的 IPv6 地 址 ,并 且 不 是 本 地 在 线 网 络 , 则 采取 IPv4 协议 ， 
但 此 时 IPv6 是 封装 在 IPv4 中 。 

@ 目的 地 址 为 非 IPv4 兼容 的 IPv6 地 址 ,并 且 不 是 本 地 在 线 网 络 , 则 采取 IPv6 
协议 。 

@ 目的 地 址 为 域名 , 则 需要 向 从 域名 服务 器 处 得 到 域名 所 对 应 的 地 址 ,再 根据 对 应 
的 地 址 进行 处 理 。 


2. 基于 双 协 议 栈 的 应 用 服务 


(1) 基于 双 协 议 栈 的 域名 服务 系统 。 

IPv4 地 址 的 DNS 正 向 解析 的 资源 记录 是 A 记录 。IPv6 地 址 DNS 解析 目前 有 两 种 
资源 记录 ,AAAA 和 A6 记录 。 虽 然 目前 AAAA 较为 常见 ,但 A6 记录 支持 一 些 AAAA 
所 不 具备 的 新 特性 ,如 地 址 聚合 。 

(2) 基于 双 协 议 栈 的 BBS 系统 。 

BBSCBulletin Board System, 电 子 公告 牌 系统 ), 用 于 下 载 数据 上传 数据 ,阅读 新 闻 、 
与 其 他 用 户 交换 消息 等 ,是 互联 网 重要 的 信息 交流 平台 。 因 此 , 随 着 IPv4 向 IPv6 的 平稳 
过 渡 , 双 协议 栈 对 于 BBS 有 重要 意义 。 

兼容 IPv4 和 IPv6 的 BBS 可 以 通过 “基本 的 支持 IPv6 的 socket ( 套 接 字 ) 接 口 扩 
展 ”, 并 修改 其 相关 的 部 分 代码 实现 。 

(3) IPv6 校园 网 过 渡 方 案 。 

在 IPv6 发 展 计划 的 初期 ,为 保证 原 有 网 络 系统 安全 、 稳 定 运 行 ,实现 IPv4 到 IPv6 的 
平稳 过 渡 , 对 于 校园 网 初期 过 渡 有 一 些 粗略 规划 ,如 跨 IPv4 的 两 台 IPv6 主机 间 通 信和 采用 
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隧道 技术 实现 ;IPv4 的 服务 器 逐渐 升级 为 双 协 议 栈 服务 器 ;IPv4/IPv6 客户 端 之 间 的 通信 
可 采用 NAT- PT 技术 实现 等 。 


7.3.2 隧道 技术 


双 协 议 栈 使 IPv4 节点 与 IPv6 节点 保持 最 直接 的 兼容 方式 且 完全 兼容 ,但 这 种 方式 
既 没 有 解决 IPv4 地 址 耗 尽 的 问题 ,还 增加 了 网 络 的 复杂 性 ,因而 多 用 于 重要 节点 服务 器 。 
而 实现 跨 IPv4 的 两 台 IPv6 主机 间 通 信和 多 采用 隧道 技术 。 

隧道 技术 实质 是 一 种 数据 包 封装 技术 。 实 现 IPv4 到 IPv6 的 过 渡 , 就 是 利用 隧道 技 
术 将 IPv6 的 数据 报 文 打包 封装 ,使 其 可 以 在 IPv4 网 络 上 传输 ,接收 方 接 到 隧道 传 过 来 的 
数据 包 之 后 ,再 进行 解 封 ,得 到 IPv6 的 数据 报 文 。 隧 道 技术 如 图 7-13 所 示 。 


IPv4 海 洋 


IPv4 报 文革 加 Ipv4 报 文 国 国 


隧道 


图 7-13 图 解 隧道 技术 


隧道 技术 有 很 多 种 实现 方法 ,本 文 将 简单 介绍 手工 配置 隧道 CConfigured Tunnel)、 
IPv4 兼容 IPv6 自动 配置 隧道 (Auto-configured Tunnel)、 隧 道中 介 (Tunnel Broker)、 
GRE 隧道 .6to4 隧道 和 ISATAP 隧道 。 


1. 手工 配置 隧道 


手工 配置 隧道 是 通过 隧道 两 端的 网 路 管理 员 协 作 手 工 配置 完成 的 ,适合 于 经 常 通信 
的 IPv6 站 点 之 间 。 这 种 隧道 不 需要 为 端点 分 配 特殊 的 IPv6 地 址 ,IPv6 地 址 由 配置 决 


定 。 每 一 条 隧道 的 封装 节点 必须 保存 隧道 终点 的 地 址 , 且 终 点 地 址 要 作为 IPv4 的 目的 地 
址 进行 封装 。 


手工 配置 隧道 要 求 站 点 间 的 信息 传输 必须 有 可 用 的 IPv4 连接 ,至 少 有 一 个 全 球 唯一 
的 IPv4 地 址 ,而 且 主 机 也 要 支持 IPv6 ,路 由 器 支持 双 协 议 栈 。 


2. IPv4 兼容 IPv6 自动 配置 隧道 


IPv4 兼容 IPv6 自动 配置 隧道 能 够 完成 点 到 点 之 间 的 连接 ,适合 于 单独 主机 之 间 的 
通信 或 是 不 经 常 通信 的 设备 之 间 。 这 种 隧道 的 建立 和 删除 都 是 动态 的 , 即 只 需 告诉 设备 
的 起 点 ,设备 会 自动 生成 终点 ,进而 确定 一 条 隧道 。 

IPv4 兼容 IPv6 自动 配置 隧道 要 求 两 端的 主机 或 是 路 由 器 同时 支持 IPv4 协议 和 
IPv6 协议 ,而 且 所 用 的 地 址 必须 是 IPv4 兼容 IPv6 地 址 。 
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3. 隧道 中 介 


隧道 中 介 并 不 属于 一 种 隧道 机 制 ,而 是 一 种 方便 构造 隧道 的 机 制 ,就 相当 于 一 个 虚拟 
的 IPv6 服务 提供 商 , 用 以 简化 手工 配置 过 程 。 隧 道中 介 通 过 Web 方式 为 用 户 分 配 IPv6 
地 址 、 建 立 隧 道 以 方便 和 其 他 IPv6 站 点 之 间 的 通信 。 


4. GRE 隧道 


GRE(Generic Routing Encapsulation, 通 用 路 由 封装 ) 规 定 了 怎样 用 一 种 网 络 协 议 去 
封装 另 一 种 网 络 协 议 。GRE 隧道 技术 可 在 IPv4 的 隧道 上 承载 IPv6 的 数据 报 文 ,其 中 
IPv6 地 址 是 在 隧道 接口 上 配置 的 ,而 IPv4 地 址 就 是 隧道 的 起 点 和 终点 。 


5. 6to4 隧道 


6to4 隧道 是 IETF 为 了 简化 IPv4 网 络 上 配置 IPv6 隧道 技术 提出 的 ,可 将 IPv6 的 域 
通过 IPv4 网 络 连 接 到 IPv6 网 络 上 。 

与 IPv4 兼容 IPv6 自动 配置 隧道 类 似 ,6to4 隧道 也 用 的 是 特殊 地 址 ,地 址 格式 为 
2002:A. B. C. D:xxxx:xxxx:xxxx:xxxx:xxxx。 其 中 A. B. C.D 表示 IPv4 地 址 。 


6. ISATAP 隧道 


ISATAP(Intra-site Automatic Tunnel Addressing Protocol, 站 点 间 自 动 隧道 寻 址 技 
术 ) 不 仅 是 一 种 自动 隧道 技术 ,还 可 进行 地 址 自动 配置 。 其 实质 是 在 一 个 广播 域 中 用 
IPv4 地 址 传输 IPv6 数据 包 的 机 制 ,是 在 IPv4 网 络 中 建立 了 一 个 虚拟 的 IPv6 网 络 。 这 种 
隧道 不 用 指明 目的 地 址 ,实际 上 IPv6 地 址 是 依据 本 地 IPv4 地 址 自动 生成 的 。 

真实 的 一 个 广播 域 中 在 IPv4 地 址 的 根 底 上 传输 IPv6 数据 包 的 隧道 机 制 , 它 可 以 在 
IPv4 网 络 上 树立 一 个 虚拟 的 IPv6 网 络 。 


7.3.3 网 络 地 址 和 协议 转换 技术 


网 络 地 址 和 协议 转换 技术 (Network Address Translation-Protocol Translation ， 
NAT-PT) 是 附带 协议 转换 器 的 网 络 地 址 转换 器 ,配合 应 用 层 网 关 (ALG) 使 用 ,可 实现 只 
安装 IPv4 协议 的 主机 和 只 安装 IPv6 协议 的 主机 大 部 分 应 用 的 通信 。NAT-PT 技术 如 
图 7-14 所 示 。 
网 络 地 址 和 协议 转换 技术 是 将 IPv4 地 址 和 IPv6 地 址 分 别 看 作 内 部 地 址 和 全 局 地 
址 。 当 内 部 的 IPv4 主机 要 和 外 部 的 IPv6 主机 通信 时 ,在 NAT 服务 器 中 将 IPv4 地 址 ( 相 
当 于 内 部 地 址 ) 变 换 成 IPv6 地 址 (相当 于 全 局 地 址 ) ,服务 器 维护 一 个 IPv4 与 IPv6 地 址 
的 映射 表 。 
网 络 地 址 和 协议 转换 技术 机 制定 义 了 三 种 不 同类 型 的 操作 ,分 别 为 静态 NAT-PT、 
动态 NAT-PT 和 NAPT-PT。 

静态 NAT-PT 对 IPv6 地 址 和 IPv4 地 址 提供 了 一 对 一 映射 ,与 IPv4 中 静态 NAT 
类 似 。 
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NAT-PT 
IPv4 IPv6 
地 址 地 址 


\ \ 
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图 7-14 图 解 NAT-PT 技术 


动态 NAT-PT 与 IPv4 中 动态 NAT 类 似 .也 提供 了 一 对 一 的 映射 ,但 是 使 用 的 是 
IPv4 的 地 址 池 , 池 中 的 源 IPv4 地 址 数量 决定 了 并 发 的 IPv6 到 IPv4 转换 的 最 大 数目 。 

NAPT-PT, 网 络 地 址 端口 转换 一 一 协议 转换 ,与 IPv4 中 PAT 类 似 ,提供 多 个 有 
NAT-PT 前 级 的 IPv6 地 址 和 一 个 源 IPv4 地 址 间 的 多 对 一 动态 映射 。 

双 协 议 栈 、 隧 道 技术 及 网 络 地 址 和 协议 转换 技术 三 者 是 目前 最 为 常用 的 IPv4 到 
IPv6 的 过 渡 技 术 。 但 这 三 种 技术 各 有 利弊 , 表 7-3 为 三 种 技术 的 比较 表 。 


表 7-3 三 种 技术 的 比较 表 


双 协 议 栈 隧道 技术 NAT-PT 
技术 特点 可 同时 运行 IPv4 和 IPv6 两 | 用 现 有 的 IPv4 体系 结构 传 ee 
种 协议 ,能够 实现 完全 兼容 | 递 IPv6 的 数据 报 文 换 和 报 文 传输 
适用 范围 | 适用 于 任何 IPv4 和 IPv6 的 | 适用 于 IPv6 主机 /网 络 、 网 | 适用 于 IPv4 和 IPv6 网 络 间 
”| 网 络 络 /网 络 之 间 互 通 的 互通 
存在 问题 不 能 解决 IPv4 地 址 耗 尽 的 | 不 能 解决 IPv4 和 IPv6 主机 /| 协议 较 多 ,而 且 应 用 层 协议 
问题 ,增加 网 络 的 复杂 性 网 络 之 间 的 互相 通信 还 需要 应 用 层 网 关 的 辅助 
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地 址 : 北京 市 海淀 区 双 清 路 学 研 大 厦 A 座 701 


邮 编 : 100084 


电 话 : 010 一 62770175 一 4608 
资源 下 载 : http://www. tup.com.cn 


客服 邮箱 : tupjsj@vip.163.com 


QQ: 2301891038 ( 请 写 明 您 的 单位 和 姓名 ) 
扫 一 扫 ， 获 取 最 新 目录 


用 微 信 扫 一 扫 右 边 的 二 维 码 , 即 可 关注 清华 大 学 出 版 社 公 众 号 “ 书 圈 ”。 


